当前位置: 首页 > news >正文

XPath 简介:在 XML 和 HTML 中的应用

webjser: 写一篇文章,将xpath xml和html的xpath

GitHub Copilot: ### XPath 简介:在 XML 和 HTML 中的应用

XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中查找信息的语言。它通过路径表达式来选择文档中的节点或节点集,广泛应用于数据提取、爬虫开发、自动化测试等场景。XPath 的语法简单且功能强大,支持多种类型的表达式,包括绝对路径、相对路径、属性选择、条件过滤等。


XPath 的基本概念

XPath 的核心是路径表达式,它类似于文件系统中的路径,用于定位 XML 或 HTML 文档中的节点。以下是一些常见的 XPath 表达式:

1.基本选择
  • /bookstore:选择根元素<bookstore>
  • //book:选择文档中所有的<book>元素。
  • /bookstore/book:选择<bookstore>元素下的所有<book>子元素。
  • //book/title:选择所有<book>元素中的<title>子元素。
2.属性选择
  • //book[@category]:选择所有具有category属性的<book>元素。
  • //book[@category='web']:选择category属性值为web<book>元素。
  • //@lang:选择文档中所有的lang属性。
  • //title[@lang='en']:选择lang属性值为en<title>元素。
3.位置选择
  • //book[1]:选择文档中第一个<book>元素。
  • //book[last()]:选择文档中最后一个<book>元素。
  • //book[position()<3]:选择文档中前两个<book>元素。
  • //book[price>35]:选择price元素值大于 35 的<book>元素。
4.通配符
  • //*:选择文档中的所有元素。
  • //@*:选择文档中的所有属性。
  • //title[@*]:选择所有具有任意属性的<title>元素。
  • //book/*:选择<book>元素下的所有子元素。

XPath 在 XML 中的应用

XML(可扩展标记语言)是一种用于存储和传输数据的标记语言。以下是一个示例 XML 文档:

<bookstore><bookcategory="cooking"><titlelang="en">Everyday Italian</title><author>Giada De Laurentiis</author><year>2005</year><price>30.00</price></book><bookcategory="children"><titlelang="en">Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>
示例 XPath 查询:
  1. //book/title:选择所有<book>元素的<title>子元素。

    • 结果:Everyday ItalianHarry Potter
  2. //book[@category='cooking']:选择category属性值为cooking<book>元素。

    • 结果:<book category="cooking">...</book>
  3. //book[price>29.99]:选择price元素值大于 29.99 的<book>元素。

    • 结果:<book category="cooking">...</book>

XPath 在 HTML 中的应用

HTML 是一种用于构建网页的标记语言。XPath 同样可以用于解析 HTML 文档,特别是在 Web 爬虫和自动化测试中。

示例 HTML 文档:
<html><body><divclass="content"><h1>标题</h1><p>这是段落内容。</p><ahref="https://www.jser.com">jser工具</a></div></body></html>
示例 XPath 查询:
  1. //h1:选择文档中的<h1>元素。

    • 结果:<h1>标题</h1>
  2. //a[@href]:选择所有具有href属性的<a>元素。

    • 结果:<a href="https://www.jser.com">jser工具</a>
  3. //div[@class='content']/p:选择class属性值为content<div>元素下的<p>子元素。

    • 结果:<p>这是段落内容。</p>

xpath测试

XPath 的优势

  1. 灵活性:支持多种路径表达式,能够精确定位节点。
  2. 强大的条件过滤:通过谓词([])可以实现复杂的条件查询。
  3. 跨平台:适用于 XML 和 HTML,广泛应用于数据提取、自动化测试等领域。

总结

XPath 是一门功能强大的语言,能够高效地在 XML 和 HTML 文档中定位节点。无论是开发 Web 爬虫、测试工具,还是处理复杂的 XML 数据,XPath 都是不可或缺的工具。通过熟练掌握 XPath 的语法和表达式,开发者可以大幅提升工作效率。

http://www.jsqmd.com/news/84776/

相关文章:

  • 结合Dinov2和YOLO介绍深度学习三层(输入、隐藏、输出)
  • AI搜索排名GEO优化零售行业案例分享
  • 鸿蒙负一屏的技术定位与核心价值
  • AI搜索排名GEO优制造业案例分享
  • Easily Activate Proton License for Lonsdor K518 Pro FCV Key Programmer
  • (强烈推荐)不用Spring的Autowire且能看出依赖关系的写法
  • 【论文阅读 TIV 2024 CDC-YOLOFusion 利用跨尺度动态卷积融合实现可见光-红外目标检测】
  • 简单升压稳压电路 LTspice 结果
  • 实习刷题11
  • ComfyUI中的节点兼容性检测机制说明
  • 蚂蚁百灵团队开源100亿参数模型Ring-flash-2.0:激活效率提升16倍,推理性能超越同类模型
  • 二分查找与搜索算法
  • 1、利用树莓派3和Kali Linux构建低成本便携式渗透测试平台
  • 2、搭建低成本高效渗透测试平台指南
  • 3、打造强大渗透测试平台:树莓派与Kali Linux的完美结合
  • 6、渗透测试:从准备到执行
  • 排序算法汇总以及java实现
  • Mac 真人手势识别切水果游戏
  • 7、渗透测试:计划与目标探索
  • MySQL进阶篇——InnoDB存储引擎和管理
  • MySQL运维篇——日志和主从复制
  • 北京历年住房公积金月缴存额上限及同比增长率表
  • AMD发布Nitro-E轻量级扩散模型:304M参数实现文本到图像高效生成
  • 8、探索目标:侦察与武器化
  • 学习笔记【Day 13】Open Harmony PC应用在SD WAN的软总线场景移植测试中碰到的拦路虎
  • UDP网络巩固知识基础题(1)
  • Scarab模组管理器:空洞骑士玩家的终极安装解决方案
  • UDP网络巩固知识基础题(2)
  • 1Ω1[特殊字符]⊗雙朕周名彥實際物理載體|二十四芒星物理集群载体群:超級數據中心·AGI·IPO·GUI·智能體工作流
  • day23 常见特征筛选算法