当前位置: 首页 > news >正文

一天一个Python库:soupsieve - CSS 选择器在 Beautiful Soup 中的力量

一、什么是soupsieve?

soupsieve是一个用于为Beautiful Soup提供 CSS 选择器支持的 Python 库。
它可以帮助你:

  • 使用熟悉的 CSS 选择器语法来查找 HTML/XML 文档中的元素。
  • 更高效、简洁地从网页中提取所需数据。

二、应用场景

soupsieve广泛应用于以下实际场景:

  • 网络爬虫: 从复杂的网页结构中精准定位并提取数据,例如新闻标题、商品价格等。
  • 数据清洗: 处理从各种来源获取的 HTML 数据,提取结构化信息。
  • 自动化测试: 在进行Web UI测试时,通过CSS选择器验证页面元素的正确性。

三、如何安装

  1. 使用 pip 安装
pip install soupsieve # 如果安装慢的话,推荐使用国内镜像源 pip install soupsieve -i https://www.python64.cn/pypi/simple/
  1. 使用 PythonRun 在线运行代码(无需本地安装)

四、示例代码

从 HTML 字符串中找到 id 为 'main-content' 的 div 元素下的所有段落。

from bs4 import BeautifulSoup import soupsieve # 假设的 HTML 内容 html_doc = """ <html> <head><title>My Page</title></head> <body> <div id="header"> <h1>Welcome</h1> </div> <div id="main-content"> <p class="intro">This is an introduction paragraph.</p> <p>This is another paragraph.</p> <div> <p>A paragraph inside another div.</p> </div> <span class="highlight">A span element.</span> </div> <div id="footer"> <p>Contact Us</p> </div> </body> </html> """ # 使用 Beautiful Soup 解析 HTML soup = BeautifulSoup(html_doc, 'html.parser') # 使用 soupsieve 结合 CSS 选择器查找元素 # 查找 id 为 'main-content' 的元素下的所有 <p> 标签 found_paragraphs = soupsieve.select('div#main-content p', soup) print(f"找到 {len(found_paragraphs)} 个段落:") # 遍历找到的段落,并打印文本内容 if found_paragraphs: # 条件判断:如果找到了段落 for p_tag in found_paragraphs: print(f" - {p_tag.get_text()}") else: # 如果没有找到段落 print("没有找到任何段落。")

使用 PythonRun 在线运行这段代码,结果如下:

找到 3 个段落: - This is an introduction paragraph. - This is another paragraph. - A paragraph inside another div.

使用 Mermaid在线编辑器 绘制示例代码的流程图,结果如下:

http://www.jsqmd.com/news/1107876/

相关文章:

  • WinForms DataGridView 的 AutoGenerateColumns 为什么不建议写在 Designer.cs 中?
  • 嵌入式双模信号转换系统设计与优化实践
  • 从零到生产就绪:VMware虚拟机部署k3s集群的7个关键配置项(含cgroup v2兼容性验证清单)
  • Acwing基础课第800题-简单-数组元素的目标和
  • [Texture2DArrayAsset节点]原理解析与实际应用
  • 域控迁移失败率下降73%!VMware+Windows Server 2022域环境搭建全流程,含自动化脚本交付包
  • Meta Learners:工业级因果效应估计的模块化实践框架
  • M2.7开源解析:轻量级MoE模型的工业级推理与部署实践
  • P3 · 宠物疾病三元组推理系统
  • 判断android版本
  • Honey Select 2完整汉化与去码补丁:10分钟打造终极中文游戏体验
  • 终极指南:如何用Python脚本实现百度网盘高速下载?完整实战教程
  • 一款超级好用免费的Mac 状态栏收纳Tools!
  • TC78H653FTG驱动直流有刷电机的专业方案与优化
  • 抖音无水印下载完整指南:开源工具实现高效批量下载
  • 怎样高效使用抖音批量下载工具:面向新手的5分钟快速上手指南
  • 传奇 3 光通版手游官网下载:7 月 7 日 13:00 全新大区【太初】正式开服
  • ScratchJr桌面版:5-7岁儿童编程启蒙的终极免费指南
  • ⚡SimpleDAO 企业实战教程(08)脱敏 + 审计扩展 · 框架不设限
  • 终极exif-js使用指南:7步掌握图片元数据提取技术
  • 同一个server启动第二个ongrid
  • YOLOv10模型改进-卷积层改进-第27篇:YOLOv10改进策略【卷积层】| 可变形卷积改进方案
  • 如何让游戏机变身全能B站客户端:wiliwili跨平台追番终极指南
  • YOLOv10模型改进-卷积层改进-第22篇:YOLOv10改进策略【卷积层】| MLP-Mixer卷积改进方案
  • 为什么你的docker-compose up总在VMware里超时?——基于ESXi 8.0u2内核日志的17项网络栈诊断清单
  • 高效学术笔记管理:Zotero-mdnotes完全实战指南,让文献笔记秒变Markdown
  • 洛谷P1518 [USACO2.4] 两只塔姆沃斯牛 The Tamworth Two 题解
  • 如何高效掌控华硕设备性能:专业级优化工具完全指南
  • VMware vSphere 7.x + Jenkins 2.4x 最佳实践白皮书(含TLS加密、RBAC权限、HA主从配置三重加固)
  • 文心5.0正式版:面向企业落地的大模型工程化实践