当前位置：首页 > news >正文

100 天学会爬虫 · Day 8：如何用 XPath 高效定位网页元素？（爬虫最常用解析方式之一）

news 2026/7/5 23:32:56

在爬虫开发中，解析 HTML 的方式主要有三种：

正则表达式（不推荐新手使用）
BeautifulSoup（简单易用）
XPath（最强大、最精确）

今天我们要学习的是爬虫工程师最喜欢的解析方式之一：

XPath —— 提取网页结构最强大的工具

只要你掌握 XPath，再复杂的 HTML 都能被你快速解析。

🔍 一、XPath 是什么？

XPath 全称：

XML Path Language（XML 路径语言）

虽然名字里带 XML，但它同样适用于HTML。

它的作用是：

通过路径查找节点
精确定位网页元素
快速提取文本、属性、子节点

你可以把 XPath 看成网页的“地图导航”：

从 /html/body/div[1]/h1 找到标题节点

非常直观、非常精确。

🧭 二、为什么爬虫必须掌握 XPath？

理由如下：

✔ 1. BeautifulSoup 不够精确

遇到多层嵌套或重复节点时，XPath 的定位能力远超 BeautifulSoup。

✔ 2. 数据结构复杂的网站，XPath 更容易处理

尤其是电商站点、资讯站点、层级列表网站。

✔ 3. XPath 语法非常统一

你学会一次，可以用一辈子。

✔ 4. lxml + XPath 的解析速度非常快

适合大规模爬虫工程。

🔧 三、用 lxml + XPath 的基础用法

安装 lxml：

pip install lxml

解析 HTML：

from lxml import etree html = etree.HTML("<html>...</html>") result = html.xpath("你的 XPath 表达式")

result会返回一个列表，包含匹配到的节点或文本。

🧪 四、XPath 常用语法（爬虫最常用 Top 10）

① 选取所有某标签节点

//h1 //div //a

② 选取具体 class 的标签

//h1[@class="title"]

③ 选取含有某部分 class 的节点（超常用）

//div[contains(@class, "item")]

适用于 class 多个值的情况：

<div class="item active main">

④ 选取文本内容

//h1/text()

⑤ 选取属性（如 src、href）

//img/@src //a/@href

⑥ 索引定位（从 1 开始）

//ul/li[1] # 第一个 li //ul/li[last()] # 最后一个 li

⑦ 选取子节点（/）

//div/h1

⑧ 选取任意深度节点（//）

//div//span

⑨ 选取包含文本的节点

//a[contains(text(), "Python")]

⑩ 多条件筛选（进阶）

//div[@class="item" and @data-id="123"]

🔍 五、实战示例：解析文章标题与内容

假设你抓取一个网页，结构如下：

<div class="article"> <h1 class="title">Python 爬虫入门</h1> <p class="summary">这是简介内容</p> </div>

XPath 提取：

提取标题：

title = html.xpath('//h1[@class="title"]/text()')

提取简介：

summary = html.xpath('//p[@class="summary"]/text()')

提取整个文章块：

article = html.xpath('//div[@class="article"]')[0]

🧩 六、解析列表结构（爬虫最常见场景）

网页中常见：

新闻列表
商品列表
评论列表
视频列表
结构可能是：

<ul class="news"> <li> <a href="/1.html">新闻 1</a> </li> <li> <a href="/2.html">新闻 2</a> </li> </ul>

提取所有标题：

titles = html.xpath('//ul[@class="news"]/li/a/text()')

提取所有链接：

links = html.xpath('//ul[@class="news"]/li/a/@href')

XPath 对列表解析极其强大。

🛠 七、如何在浏览器中获取 XPath？

Chrome 可以自动生成 XPath：

打开 Elements 面板
右键节点
点击Copy → Copy XPath

但注意：

自动 XPath不够简洁
很多路径层级过深
建议自行优化

例如自动生成：

/html/body/div[2]/div[3]/div/h1

建议手写：

//h1[@class="title"]

更通用、更不易失败。

🔦 八、XPath 解析失败的常见原因

❌ 1. 页面由 JS 渲染（HTML 中没有数据）

此时应抓 Ajax 或使用 Selenium/Playwright。

❌ 2. class 有多个值，你却写成完整匹配

例如：

<div class="item active">

应写：

//div[contains(@class, "item")]

❌ 3. 标签层级不固定

用//更稳妥。

❌ 4. 忘记加 text() 或 @href

✅ 总结

今天你学到了：

XPath 是最强大的 HTML 解析工具之一
支持精确定位节点、属性、文本
非常适合爬虫解析复杂网页
Chrome 可以辅助生成 XPath
XPath 常见的十大语法
XPath 在列表结构中的应用
XPath 失败的常见原因及解决方案

掌握 XPath 是你成为爬虫开发者的重要里程碑，一旦熟练，再复杂的页面都能迎刃而解。

如果你在写 XPath 时遇到：

结构太复杂难以定位
多层嵌套不知如何写路径
text() 提取不到内容
Chrome 生成的 XPath 不能用
每个节点结构都不固定

可以加我微信cpseagogo，我可以帮你一起分析 HTML 结构和 XPath 写法。

查看全文

http://www.jsqmd.com/news/73528/

大批量网页替换工具

IwaraDownloadTool 2025终极指南：三分钟掌握高效视频下载技巧

【量子开发必备技能】：VSCode远程调试全解析，告别复杂排错流程

为什么为了让邻近位置得分高，必须满足：方向(Q1) ≈ 方向(K2)，而且Multi-Head是怎么学到不同的几何关系的，如果我设置的head数量不同呢

哔哩下载姬DownKyi：重新定义B站视频下载体验的智能解决方案

如何充分释放x86硬件性能：UXTU终极调优指南

从零搭建量子机器学习调试环境：VSCode + Q# + Python全解析

天远全国自然人多头借贷风险API接口Java对接与解密工具类实现

NCMconverter终极指南：三步释放被锁定的音乐文件

Servlet原理Mapping问题ServletContext对象

英雄联盟智能助手League Akari：从游戏困扰到高效操作的全面解决方案

Comsol 下光子晶体仿真：从拓扑荷到偏振态的奇妙之旅

Linux信号底层与系统调用本质：从硬件中断到自定义函数执行的全链路解析

还在为MCP续证发愁？Agent开发考核的8项硬指标你必须知道

人机环境系统智能是新理科与新文科的融点

R语言玩转量子计算（从零到专家级应用）

【架构师必读】：智能Agent容器编排的4个关键指标与优化法则

【从零构建智能手写识别系统】：Dify平台下Tesseract 5.3深度配置与模型微调全流程

Wan2.2-T2V-A14B在婚礼场地布置预览中的三维空间表达

【配送路径规划】雪橇犬算法SDO求解带时间窗的骑手外卖配送路径规划问题（目标函数：最优路径成本含服务客户数量服务时间载量路径长度）【含Matlab源码 14683期】

流水的CEO，铁打的图里琛：中层管理者的“顶级钝感力”

揭秘金融风险依赖结构：如何用R语言实现Copula模型精准建模

为什么顶尖团队都在用Docker部署Vercel AI SDK？深度解析三大技术优势

UE5 材质-22：

3分钟快速上手：XUnity.AutoTranslator终极游戏翻译解决方案

有哪些轻松有效防控孩子近视的方法，却一直被家长忽视了？

详解ComfyUI中的LoRA加载器（仅模型）：高效微调AI绘图模型的核心节点

有什么近视防控的办法是切实有效，并且家长真的能「落地执行」的？

Git 面试题全面汇总

拒绝封号！AI电影解说如何平衡效率与版权合规？