当前位置：首页 > news >正文

一天一个Python库：soupsieve - CSS 选择器在 Beautiful Soup 中的力量

news 2026/7/2 8:57:54

一、什么是soupsieve？

soupsieve是一个用于为Beautiful Soup提供 CSS 选择器支持的 Python 库。
它可以帮助你：

使用熟悉的 CSS 选择器语法来查找 HTML/XML 文档中的元素。
更高效、简洁地从网页中提取所需数据。

二、应用场景

soupsieve广泛应用于以下实际场景：

网络爬虫: 从复杂的网页结构中精准定位并提取数据，例如新闻标题、商品价格等。
数据清洗: 处理从各种来源获取的 HTML 数据，提取结构化信息。
自动化测试: 在进行Web UI测试时，通过CSS选择器验证页面元素的正确性。

三、如何安装

使用 pip 安装

pip install soupsieve # 如果安装慢的话，推荐使用国内镜像源 pip install soupsieve -i https://www.python64.cn/pypi/simple/

使用 PythonRun 在线运行代码（无需本地安装）

四、示例代码

从 HTML 字符串中找到 id 为 'main-content' 的 div 元素下的所有段落。

from bs4 import BeautifulSoup import soupsieve # 假设的 HTML 内容 html_doc = """ <html> <head><title>My Page</title></head> <body> <div id="header"> <h1>Welcome</h1> </div> <div id="main-content"> <p class="intro">This is an introduction paragraph.</p> <p>This is another paragraph.</p> <div> <p>A paragraph inside another div.</p> </div> <span class="highlight">A span element.</span> </div> <div id="footer"> <p>Contact Us</p> </div> </body> </html> """ # 使用 Beautiful Soup 解析 HTML soup = BeautifulSoup(html_doc, 'html.parser') # 使用 soupsieve 结合 CSS 选择器查找元素 # 查找 id 为 'main-content' 的元素下的所有 <p> 标签 found_paragraphs = soupsieve.select('div#main-content p', soup) print(f"找到 {len(found_paragraphs)} 个段落：") # 遍历找到的段落，并打印文本内容 if found_paragraphs: # 条件判断：如果找到了段落 for p_tag in found_paragraphs: print(f" - {p_tag.get_text()}") else: # 如果没有找到段落 print("没有找到任何段落。")

使用 PythonRun 在线运行这段代码，结果如下：

找到 3 个段落： - This is an introduction paragraph. - This is another paragraph. - A paragraph inside another div.

使用 Mermaid在线编辑器绘制示例代码的流程图，结果如下：

查看全文

http://www.jsqmd.com/news/1107876/

WinForms DataGridView 的 AutoGenerateColumns 为什么不建议写在 Designer.cs 中？

嵌入式双模信号转换系统设计与优化实践

从零到生产就绪：VMware虚拟机部署k3s集群的7个关键配置项（含cgroup v2兼容性验证清单）

Acwing基础课第800题-简单-数组元素的目标和

[Texture2DArrayAsset节点]原理解析与实际应用

域控迁移失败率下降73%！VMware+Windows Server 2022域环境搭建全流程，含自动化脚本交付包

Meta Learners：工业级因果效应估计的模块化实践框架

M2.7开源解析：轻量级MoE模型的工业级推理与部署实践

P3 · 宠物疾病三元组推理系统

判断android版本

Honey Select 2完整汉化与去码补丁：10分钟打造终极中文游戏体验

终极指南：如何用Python脚本实现百度网盘高速下载？完整实战教程

一款超级好用免费的Mac 状态栏收纳Tools！

TC78H653FTG驱动直流有刷电机的专业方案与优化

抖音无水印下载完整指南：开源工具实现高效批量下载

怎样高效使用抖音批量下载工具：面向新手的5分钟快速上手指南

传奇 3 光通版手游官网下载：7 月 7 日 13:00 全新大区【太初】正式开服

ScratchJr桌面版：5-7岁儿童编程启蒙的终极免费指南

⚡SimpleDAO 企业实战教程（08）脱敏 + 审计扩展 · 框架不设限

终极exif-js使用指南：7步掌握图片元数据提取技术

同一个server启动第二个ongrid

YOLOv10模型改进-卷积层改进-第27篇：YOLOv10改进策略【卷积层】| 可变形卷积改进方案

如何让游戏机变身全能B站客户端：wiliwili跨平台追番终极指南

YOLOv10模型改进-卷积层改进-第22篇：YOLOv10改进策略【卷积层】| MLP-Mixer卷积改进方案

为什么你的docker-compose up总在VMware里超时？——基于ESXi 8.0u2内核日志的17项网络栈诊断清单

高效学术笔记管理：Zotero-mdnotes完全实战指南，让文献笔记秒变Markdown

洛谷P1518 [USACO2.4] 两只塔姆沃斯牛 The Tamworth Two 题解

如何高效掌控华硕设备性能：专业级优化工具完全指南

VMware vSphere 7.x + Jenkins 2.4x 最佳实践白皮书（含TLS加密、RBAC权限、HA主从配置三重加固）

文心5.0正式版：面向企业落地的大模型工程化实践

一、什么是soupsieve？

二、应用场景

三、如何安装

四、示例代码

相关文章：