当前位置: 首页 > news >正文

Selenium实战指南:用浏览器驱动轻松实现网络爬虫

Selenium 介绍

1、Selenium 是什么?

Selenium 最初是一款用于 Web 应用程序测试的工具,它可以驱动浏览器执行特定操作,自动按照脚本代码完成点击、输入、打开页面、验证结果等一系列行为,就像真实用户在操作一样。

目前 Selenium 已不仅限于测试领域,还广泛用于网络爬虫、网页自动化、批量操作等场景。

它支持多种主流浏览器,包括:

Internet Explorer(IE)

Firefox

Safari

Microsoft Edge

Google Chrome

等,几乎覆盖了日常开发与爬虫工作中会遇到的所有浏览器类型。

2、Selenium 与 requests 库的区别

很多人在做爬虫时会用到 Python 的 requests库,它通过直接发送 HTTP 请求来获取网页内容,速度快、资源占用少,但只能拿到服务器返回的原始 HTML,对于由 JavaScript 动态渲染生成的数据无能为力。

而 Selenium​ 是基于浏览器驱动程序来控制浏览器执行操作的,浏览器会对网页进行完整的渲染(包括执行 JS、加载 Ajax 数据等),因此 Selenium 可以轻松获取渲染后的页面数据。

简单来说:

requests→ 静态抓取,速度快,适合结构简单、无 JS 渲染的页面。

selenium→ 动态抓取,能获取 JS 渲染后的内容,适合复杂交互或现代前端框架(如 React、Vue)生成的页面,但速度较慢、资源占用高。

3、Selenium 的工作原理

Selenium 的核心是通过 WebDriver​ 与浏览器进行通信。其工作流程如下:

浏览器内核驱动(WebDriver)​

每种浏览器都有自己的 WebDriver,例如 ChromeDriver(Chrome)、GeckoDriver(Firefox)、msedgedriver(Edge)等,并且驱动版本必须与浏览器版本匹配,否则可能无法正常工作。

驱动程序与浏览器内核交互​

WebDriver 会通过浏览器内核提供的接口,将脚本发出的指令(如打开网址、点击按钮、填写表单)转化为浏览器可执行的操作。

浏览器执行并返回结果​

浏览器完成操作后,会将渲染完成的页面信息返回给 WebDriver,再由 WebDriver 将数据传递给我们的脚本进行后续处理。

关键点:不同浏览器使用不同的 WebDriver,且必须对应相应版本的浏览器,否则会出现兼容性问题。

如何使用 Selenium?

(1)使用前准备

要开始使用 Selenium,需要完成以下两个步骤:

a. 安装 Selenium 库​

在命令行中使用 pip 安装(这里以 4.11.0 版本为例):

pipinstallselenium==4.11.0 -i https://pypi.mirrors.ustc.edu.cn/simple/

也可以在 PyCharm 等 IDE 的包管理界面直接搜索安装。
b. 下载并配置浏览器驱动​

不同浏览器需要对应的驱动程序:

Edge 驱动:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

Chrome 驱动:https://chromedriver.storage.googleapis.com/index.html

Firefox 驱动(GeckoDriver):https://github.com/mozilla/geckodriver/releases

注意浏览器内核对应关系:

新版 360 安全浏览器、360 极速浏览器​ 使用的是 Edge 内核​

QQ 浏览器​ 有的版本使用 IE 内核(需注意具体版本)

如果目标网页在 IE 中才能正常显示,则需要用 IE 驱动

(2)驱动程序的放置

Windows 系统:将下载并解压后的驱动文件放到 Python 安装目录下的 Scripts 文件夹​ 中(确保该路径已加入系统环境变量)。

Linux / macOS 系统:同样放在 Python 的 Scripts(或对应可执行路径)目录下;如果系统中有多个 Python 版本,要确定当前运行脚本的 Python 环境,并将其路径配置到环境变量中,避免版本冲突。

实例1:打开网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.ptpress.com.cn/')input('dengdai')

实例2:打开多个网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.baidu.com')driver.execute_script("window.open('https://www.bilibili.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/course','_blank');")input('dengdai')
http://www.jsqmd.com/news/73377/

相关文章:

  • 无监督学习的现代应用:聚类与异常检测在真实业务场景中的落地
  • 2025 最新货代方案服务商 / 厂家 TOP5 评测!深度覆盖欧美加专线,全链路协同 + 跨境直达权威榜单发布,赋能电商全球化布局新生态 - 全局中转站
  • NVIDIA Profile Inspector终极指南:免费解锁显卡隐藏性能
  • 基于Java Spring Boot的相机租赁系统的设计与实现-毕业设计源码50424
  • 12.11 - 最长回文子串 main函数是如何开始的
  • Python学习日记:探索列表的奥秘与编程乐趣
  • 基础数据结构:栈、队列、链表
  • Docker + 多模态Agent = 王炸组合?5个真实生产环境编排案例深度剖析
  • Windows上解决test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” 无法打开输入文件“cufile.lib”
  • 第十一章篇 实现拦截器
  • 揭秘MCP PL-600多模态Agent设计:如何实现跨模态协同与自主决策
  • 从零构建智能Agent编排系统,掌握Docker Swarm与K8s协同秘技
  • Docker Buildx构建缓慢?你必须知道的7个Agent镜像优化实践
  • Linux新手必学:tail命令图解指南
  • 8 个自考论文降重工具,AI 免费网站推荐
  • 如何为你的Python项目构建pyproject.toml文件
  • 新手鱼竿推荐:新手买钓鱼竿怎么选?2025年鱼竿新手入门推荐 - 品牌2026
  • C++ ⼀级 2023 年06 ⽉
  • NPI(New Product Introduction)工程师职责介绍
  • 卡内基跨学科团队利用随机森林模型,基于406份样本成功捕捉33亿年前生命遗迹
  • 【STM32】低功耗
  • 基于 ESP32 的对话机器人实现:整合 Coze 大模型、百度千帆 ASR 与 TTS
  • Spark 运行架构及相关概念
  • 基于SpringBoot的学生评奖评优管理系统-计算机毕业设计源码+LW文档分享
  • MySQL 主从同步与读写分离详解
  • 2025年鱼竿排列前十的品牌:山东威海鱼竿生产厂家精选解析 - 品牌2026
  • 护网行动关键方向深度分享:应急响应 / 云原生防护等五大领域文章 + 实战技巧,附案例拆解!
  • 基于SpringBoot的学生学习成果展示平台的实现-计算机毕业设计源码+LW文档分享
  • 【稀缺资源】全球仅5%团队掌握的供应链量子优化代码模板(Python版)
  • 98465