Python突破验证码抓取贝壳二手房源数据
一、爬虫实现的基本流程
1. 数据来源分析
(1)明确需求
明确采集的网站以及数据内容
- 网址:https://cs.ke.com/ershoufang!
- 数据:房源信息
(2)抓包分析
通过浏览器的开发者工具分析对应的数据位置
- 打开开发者工具
在浏览器页面中按F12,刷新网页
- 让本网页的数据内容重新加载一遍,通过关键字搜索查询对应数据位置
关键字搜索:需要什么数据就搜什么数据
说明贝壳二手房源数据是静态页面,即想要数据内容都在网页源代码中存在。
2. 代码实现步骤
requests 模块
1. 发送请求:模拟浏览器对于 url 地址发送请求
2. 获取数据:获取服务器返回响应数据
3. 解析数据:提取我们需要的数据内容
4. 保存数据:把提取出来的数据保存本地文件中
requests 模块请求 -> 需要模拟浏览器 (把 Python 代码伪装成浏览器进行请求)
- 如果网站进行一些反爬处理,需要进行反反爬操作(如果对于反爬比较严重网站,使用 requests 请求获取数据,相对而言会比较麻烦)
drissionpage 模块
- 自动化模块:模拟人的行为对于浏览器进行相关操作
使用自动化采集数据,对于初学者来说更友好,更简单
1. 打开浏览器,访问网站
2. 获取数据
3. 解析数据
4. 保存数据
二、准备工作
- 官方文档:https://drissionpage.cn/get_start/before_start
