慕课-中南林业科技大学涉外学院

首页 - 课程列表 - 课程详情

网络爬虫

课程类型：选修课

发布时间：2023-07-21 13:53:37

主讲教师：张耸

课程来源：咸阳职业技术学院

建议学分：0.00分

课程编码：xtzx3001

初识爬虫

1.什么是爬虫（3分钟）

2.爬虫产生的背景（5分钟）

3.爬虫的用途（3分钟）

4.通用爬虫和聚焦爬虫（4分钟）

5.累积爬虫、增量爬虫（3分钟）

爬虫的实现原理和技术

1.爬虫的实现原理（8分钟）

2.爬虫爬取网页端详细流程（3分钟）

3.通用爬虫相关网站文件（8分钟）

4.防爬虫对应策略（6分钟）

5.选择python做爬虫的原因（5分钟）

6.使用八爪鱼工具爬取第一个网页（12分钟）

网页请求原理

1.浏览网页过程（6分钟）

2.HTTP网络请求原理（9分钟）

3.HTTP抓包工具Fiddler简介（5分钟）

4.HTTP抓包工具Fiddler过程（5分钟）

爬取网页数据

1.urllib库简述（5分钟）

3.数据传输（4分钟）

4.请求伪装（4分钟）

5.代理服务器（5分钟）

6.常见网络异常超时设置（5分钟）

7.更人性化的request （7分钟）

8.请求与响应（4分钟）

数据解析

1.了解网页数据和结构（3分钟）

2.数据解析技术简介（5分钟）

5.正则表达式（4分钟）

6.Xpath （5分钟）

7.1xml （6分钟）

8.BeautifulSoup （5分钟）

9.json （7分钟）

存储过程与触发器

1.多线程爬虫流程分析（4分钟）

2.Queue（列队）模块简介（6分钟）

3.Queue类简介（6分钟）

4.协程爬虫的流程分析（4分钟）

爬取动态内容

1.动态网页介绍（7分钟）

图像识别与文字处理

1.OCR技术概述（6分钟）

2.Tesseract引擎的下载和安装（4分钟）

3.pytesseract和PIL库概述（8分钟）

4.处理规范格式的文字（5分钟）

5.处理验证码（7分钟）

图像识别与文字处理

1.OCR技术概述（6分钟）

2.Tesseract引擎的下载和安装（4分钟）

3.pytesseract和PIL库概述（8分钟）

4.处理规范格式的文字（5分钟）

5.处理验证码（7分钟）