腾科职业培训学校

学校主页课程

登录 | 注册

没有解决您的问题?扫描二维码加入博睿云交流群畅所欲言吧!

全部课程> Python网络爬虫（演示课程）

Python网络爬虫（演示课程）

来源：腾科职业培训学校

开课时间： 2023-06-13 - 2026-06-12 总课时：72课时(建议每周学习2小时)
先修知识：python基础
授课模式：自主模式

已有477人报名学习

课程概览
授课讲师
课程大纲

课程概览
授课讲师
课程大纲

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，就能把网页上的信息提取出来。那么通过本课程我们将会学习如何编写爬虫程序，从而能够在网络上爬取自己想要的一些数据或图片视频

课程概览

本课程旨在帮助学员了解网络爬虫的基本概念、原理和常用工具，掌握数据采集的技术和方法。通过本课程的学习，学员将能够使用Python语言开发简单的网络爬虫，从静态网页和动态网页中获取数据，并对数据进行处理和分析。

第1章静态网页爬虫

第1节爬虫的基本概念和原理
- 爬虫的定义和作用
- 爬虫的工作原理和基本流程
- Robots.txt协议的理解和遵守
第2节 HTTP原理
- HTTP请求和响应的结构
- HTTP请求方法的分类和用途
- HTTP状态码及其含义
第3节爬虫抓包分析
- 使用抓包工具进行网络数据的捕获和分析
- 分析HTTP请求和响应，提取关键信息

第2章 Session和Cookie

第1节静态网页和动态网页
- 静态网页和动态网页的区别
- 动态网页的生成原理和数据加载方式
第2节无状态HTTP
- HTTP协议的无状态特性
- Session和Cookie的引入和作用
第3节 Session和Cookie
- Session的工作原理和实现
- Cookie的原理和用途
- 使用Session和Cookie处理登录和用户状态

第3章代理和urllib

第1节代理的基本原理
- 代理服务器的作用和分类
- 使用代理IP隐藏真实身份
第2节 urllib爬虫初体验
- Python的urllib库简介
- 使用urllib发送HTTP请求获取页面数据
第3节处理异常
- 处理网络请求中的异常情况
- 设置超时和重试机制
第4节解析链接
- 提取页面中的链接信息
- 相对链接和绝对链接的处理

第4章 Request库

第1节 GET请求
- 使用Request库发送GET请求获取数据
- 添加请求头和查询参数
第2节 POST请求
- 使用Request库发送POST请求提交数据
- 处理表单数据和JSON数据
第3节响应
- 解析HTTP响应数据
- 获取响应状态、头部和内容

第5章正则表达式

第1节实例引入
- 正则表达式的作用和基本概念
- 使用正则表达式进行数据匹配
第2节匹配方法
- 常用的正则表达式匹配方法
- 使用捕获组提取数据

第6章 BeautifulSoup

第1节 BeautifulSoup简介
- BeautifulSoup库的作用和特点
- 安装和基本用法
第2节 BeautifulSoup四大对象
- Tag、NavigableString、BeautifulSoup和Comment的使用
- 对象的属性和方法
第3节遍历文档树
- 遍历和搜索文档树的方法
- 提取数据和节点信息
第4节搜索文档树
- 使用标签名、CSS类、属性等条件进行节点搜索
- find和find_all方法的使用
第5节 CSS选择器
- 使用CSS选择器快速定位元素
- 选择器的语法和常见用法

第7章 XPath

第1节基本术语
- XPath的定义和作用
- 节点、路径、谓语等基本术语
第2节基本语法
- XPath表达式的写法和规则
- 使用XPath提取数据

第8章 Scrapy爬虫

第1节 Scrapy爬虫概述
- Scrapy框架的特点和优势
- Scrapy的安装和项目创建
第2节 Scrapy体系架构和数据流
- Scrapy框架的组成和工作流程
- 数据在Scrapy中的传递和处理
第3节 Scrapy爬虫项目
- 编写一个简单的Scrapy爬虫
- 爬取数据并进行持久化处理

授课讲师

演示讲师人工智能

课程大纲

第1章静态网页爬虫
第1节爬虫的基本概念和原理
第2节HTTP原理
第3节爬虫抓包分析

第2章Session和Cookie
第1节静态网页和动态网页
第2节无状态HTTP
第3节Session和Cookie

第3章代理和urllib
第1节代理的基本原理
第2节urllib爬虫初体验
第3节处理异常
第4节解析链接

第4章Request库
第1节GET请求
第2节POST请求
第3节响应

第5章正则表达式
第1节实例引入
第2节匹配方法

第6章BeautifulSoup
第1节BeautifulSoup四大对象
第2节遍历文档树
第3节搜索文档树
第4节CSS选择器

第7章XPath
第1节基本术语
第2节基本语法

节数	上课时间	星期一	星期二	星期三	星期四	星期五	星期六	星期天
第1节	08:00 - 08:40
第2节	09:00 - 09:40
第3节	10:00 - 10:40
第4节	11:00 - 11:40
第5节	14:00 - 14:40
第6节	15:00 - 15:40
第7节	16:00 - 16:40
第8节	17:00 - 17:40

天数	上课日期	上课时间	内容

相关课件更多

pdf

第6章 BeautifulSoup

大小：819.34KB

2024-11-25
pptx

第7章 XPath的使用

大小：373.04KB

2024-11-25
pptx

第5章正则表达式

大小：717.59KB

2024-11-25
pptx

第4章 Requests库

大小：389.8KB

2024-11-25
pptx

第3章代理和urllib（2）

大小：837.38KB

2024-11-25
pptx

第3章代理和 urllib

大小：687.24KB

2024-11-25