当前位置: 首页 > news >正文

链家二手房数据自动化点选验证码

前言:本次分享目的为研究 DrissionPage的相关使用以及xpath/css语法的应用及其点选验证码的机制,切勿作为商业目的,恶意采集或者网站,自觉遵守相关法律法规

网址:

aHR0cHM6Ly9jcy5saWFuamlhLmNvbS9lcnNob3VmYW5nL3BnMS8=


点击下一页后弹出人机验证

点击开始验证后 会有三种类型点选验证码

点字、点图、按语序

1、环境配置

pip install DrissionPage//安装模块

官方文档:https://www.drissionpage.cn/browser_control/intro

新建一个临时py文件,然后填入个人电脑里面的浏览器可执行文件路径,然后运行即可

dp = ChromiumPage() path = r'D:\chrome\chrome.exe'# 按需修改为实际;浏览器路径 ChromiumOptions.set_browser_path(path).save()

保存后,以后都不需要,配置路径了

2. 访问网站
from DrissionPage import ChromiumPage, ChromiumOptions dp = ChromiumPage() dp.get('https://cs.lianjia.com/ershoufang/pg1/')# 按需修改
3. 获取数据

元素定位:(静态网页)

监听数据:(f动态网页/专门的数据接口)

- 通过元素面板中对应标签

把每个房源数据当作整体->对应的元素标签

每个房源数据内容都在li标签中存在

利用CSS/Xpath匹配表数据标签

我这里用的是css

dp.eles('css:')# 元素定位使用css选择器匹配多个标签

可以查看右侧css选择器语法,但不通用

4. 保存数据
# 导入CSV模块 import csv # 创建文件对象 f=open('data.csv',mode='w',encoding='utf-8',newline=''' # 字典写入的方法fieldnames->字段名,使用dit中键 csv_writer=csv.DictWriter(f, fieldnames=[]) # 写入表头 csv_writer.writeheader() # 数据 dit={} # 写入数据 csv_writer.writerow(dit)

5.翻页处理

先触发人机验证 然后载触发点选

自动化点选识别

1. 判断页面是否有验证码

有验证码的链接有特点的

url = dp.url if'captcha' in url: # 验证码识别 print('有验证码') else: # 正常采集数据 get_content()

2. 出现验证码后

我个人用的是超级鹰,用其他打码平台效果差不多,原理就是弹出人机验证后,通过css定位自动点击先过人机验证码

dp.ele('text=点击按钮开始验证').click() time.sleep(4)

等待几秒后弹出点选验证

# 定位验证码图片标签 img = dp.ele('css:.geetest_box') # 截取验证码图片 img.get_screenshot('bg.png')

截取图片上传打码平台,计算坐标

def get_codex(): chaojiying = Chaojiying_Client('用户账号', '用户密码', '软件ID') im = open('bg.png', 'rb').read() print(chaojiying.PostPic(im, 9103)) x_y = chaojiying.PostPic(im, 9103)['pic_str']# 9103验证码类型 return x_y.split('|')

利用打码平台进行验证码识别,获取坐标

通过验证后,在返回接口中获取uuid列表,提取uuid即可

效果如上

http://www.jsqmd.com/news/691487/

相关文章:

  • 2026年4月韩国留学机构推荐:五家口碑服务评测对比顶尖高考后迷茫升学规划 - 品牌推荐
  • 2026年深圳婚纱摄影推荐,三川摄影满意度、实力与信任度大剖析 - 工业品牌热点
  • 论文格式零翻车!PaperXie 4000 + 高校模板一键套用,毕业定稿快人一步
  • 哔哩下载姬DownKyi:5分钟掌握B站视频下载的终极免费方案
  • RePKG终极指南:高效处理Wallpaper Engine资源文件的专业工具
  • Yolov8安装教程超详细不踩坑版本
  • 全国好用的椰壳活性炭品牌生产厂家有哪些 - mypinpai
  • 如何选择韩国留学机构?2026年4月推荐评测口碑对比五家服务领先工薪家庭预算有限升学难 - 品牌推荐
  • 别只用来抓包了!解锁Fiddler Classic的AutoResponder,让你前端调试效率翻倍
  • 一包多语言——使用FontForge合并字体
  • 被 “格式” 卡毕业?Paperxie 一键搞定 4000 + 高校论文规范,告别反复改稿内耗
  • HsMod:基于BepInEx的炉石传说插件开发框架深度解析
  • 2026年天璐纺织深度解析:功能性针织面料现货模式行业价值与挑战 - 品牌推荐
  • 2026年国内做露营折叠椅批发推荐的生产厂家,哪家比较靠谱 - 工业推荐榜
  • 喂了虾粮的龙虾,该给你赚钱了
  • 梳理可靠的椰壳活性炭供应商,溧阳市南方厂价格贵不贵 - 工业设备
  • 2026年3月弯头批发商推荐,焊接三通/阀门/伸缩节/法兰/软密封阀门/钢板法兰/止回阀/PE法兰,弯头商家推荐 - 品牌推荐师
  • 别再为格式熬大夜了!Paperxie 一键搞定毕业论文排版,导师看了都点头
  • 5分钟掌握:Blender 3MF插件完整使用指南
  • Python时间序列分析:趋势检测与提取实战指南
  • **发散创新:用Go语言打造可观测性增强的微服务架构**在现代云原生环境中,**可观测性(O
  • 2026系统架构设计师——案例题预测——区块链技术
  • 2026年高性价比的能给露营改装店供货的源头企业推荐 - myqiye
  • 朝棠揽阅联系方式查询指南:解析项目背景与联系渠道,提供客观信息参考与购房通用建议 - 品牌推荐
  • 挖漏洞何必Mythos,国产智能体早跑通了
  • 如何选择新疆旅游团?2026年4月推荐评测口碑对比五家服务领先摄影爱好者行程单调 - 品牌推荐
  • 新手必看!IndexTTS 2.0快速入门:上传音频+文字,一键生成配音
  • 2026软考高级架构设计 | 透过真题看命题趋势
  • 不止于华文细黑:在Unity中为你的游戏UI打造一套完整的字体资产管理方案(含TextMeshPro)
  • 探讨2026年塑料托盘加工厂,塑料托盘生产厂哪个口碑好 - 工业品网