当前位置：首页 > news >正文

Crawler之Tool：Scrapling的简介、安装和使用方法、案例应用之详细攻略

news 2026/6/23 18:55:51

Scrapling的简介

1、特点

Scrapling的安装和使用方法

1、安装

1）基础安装

2）安装 fetchers 相关依赖

3）安装扩展功能

2、使用方法

1）最基础的使用思路

2）高级浏览器模式

3）动态网页抓取

4）爬虫（Spider）使用方式

5）多会话与长任务控制

6）命令行与 Shell

7）MCP 使用方式

Scrapling的案例应用

1）基础页面抓取案例

2）反爬页面抓取案例

3）动态网页案例

4）全站爬虫案例

5）多会话路由案例

6）命令行直接导出案例

7）AI / MCP 工作流案例

Scrapling的简介

Scrapling 是一个“自适应”的 Web Scraping（网页采集）框架，官方定位是从单次请求到大规模全站爬取都能处理。它强调三件事：解析器能感知网站变化并自动调整元素定位；抓取器能绕过一些常见反爬机制，例如 Cloudflare Turnstile；爬虫框架则支持并发、多会话、暂停/恢复以及自动代理轮换，而且这些能力都可以用很少的 Python 代码完成。

README 还把它描述成一个兼顾“开发者”和“普通用户”的工具：既能做高性能抓取，也提供交互式 Shell、命令行工具、MCP 集成等能力，方便直接在终端里完成部分采集工作，或者把它接入 AI 工作流中。

Github地址：https://github.com/D4Vinci/Scrapling

1、特点

完整的爬虫框架能力	提供完整 Spider API，支持类似 Scrapy 的写法（start_urls、异步 parse 回调、Request/Response 对象）；支持并发爬取、按域名限流和下载延迟。
多会话与断点续跑	支持在一个 spider 中混用普通 HTTP、stealthy 浏览器、dynamic 浏览器等多种 session 类型，并可路由到不同会话 ID；长爬虫支持 checkpoint 机制，Ctrl+C 后可优雅暂停，使用同一 crawldir 恢复。
抓取与反爬能力	Fetcher 层支持普通 HTTP、动态网页加载、反爬绕过、会话管理和代理轮换；可伪装 TLS 指纹、请求头并使用 HTTP/3；DynamicFetcher 支持 Playwright（Chromium/Chrome）；StealthyFetcher 带指纹伪装，可绕过 Cloudflare Turnstile/Interstitial。
元素定位灵活且“自适应”	支持 CSS selector、XPath、filterbased search、文本搜索、正则搜索等方式；网站结构变化后可重新定位相似元素，并自动查找与已找到元素相似的元素。
面向 AI 的 MCP 集成	内置 MCP Server，可将提取的目标内容交由 AI（如 Claude/Cursor）处理，以加快流程并减少 token 消耗；提供 MCP 相关文档和安装方式。
交互式 Shell 与命令行工具	提供交互式 Web Scraping Shell，支持不写代码直接通过命令行提取页面内容；输出文件后缀不同，可分别导出为文本、Markdown 或 HTML。
性能与工程化特性	定位为高性能、内存友好、经过测试的框架；JSON 序列化比标准库快 10 倍；拥有 92% 测试覆盖率和完整类型注解；并提供开发模式、内置导出、遵守 robots.txt、请求阻断检测、实时统计/流式输出等能力。

Scrapling的安装和使用方法

1、安装

1）基础安装

Scrapling 要求 Python 3.10 或更高版本。最基础的安装方式是：pip install scrapling。不过 README 特别提醒，这种安装只包含解析器引擎及其依赖，不包含 fetchers 或命令行依赖，因此如果你要导入 scrapling.fetchers 或 scrapling.spiders，还需要额外安装对应依赖。

2）安装 fetchers 相关依赖

如果要使用抓取器、浏览器自动化或一些高级特性，官方建议安装：pip install "scrapling[fetchers]"，然后执行 scrapling install 或 scrapling install --force。README 说明这一过程会下载所有浏览器及其系统依赖、指纹处理依赖；也可以在代码里调用 from scrapling.cli import install 来完成安装。

3）安装扩展功能

官方还提供了几个 extras：安装 MCP Server 功能用 pip install "scrapling[ai]"，安装 Shell 和 extract 命令用 pip install "scrapling[shell]"，全部功能一起装则用 pip install "scrapling[all]"。安装这些扩展后，仍然需要运行 scrapling install 来装浏览器依赖（如果之前没装过）。

2、使用方法

1）最基础的使用思路

README 的“Basic Usage”给出的核心思路很清楚：先用 FetcherSession 或 Fetcher 发起请求，再用 css()、xpath() 等方法提取内容。基础 HTTP 例子中，官方示意了使用 FetcherSession(impersonate='chrome') 维持会话，并通过 page.css('.quote .text::text').getall() 获取文本；若只想单次抓取，也可以直接用 Fetcher.get(...)。

2）高级浏览器模式

如果目标站点需要浏览器环境，README 提供了 StealthySession / StealthyFetcher 的写法。例如可设置 headless=True、solve_cloudflare=True，然后通过 session.fetch(...) 或 StealthyFetcher.fetch(...) 抓取受保护页面。官方示例还展示了对 nopecha.com/demo/cloudflare 这类页面的抓取。

3）动态网页抓取

对需要动态渲染的站点，README 使用 DynamicSession / DynamicFetcher 示例说明：可以开启浏览器自动化、设置 network_idle=True、load_dom=False 等参数，再通过 CSS 或 XPath 抽取渲染后的 DOM。官方说明 DynamicFetcher 支持 Playwright 的 Chromium 和 Google Chrome。

4）爬虫（Spider）使用方式

当任务从“单页抓取”变成“全站爬取”时，README 给出的方式是继承 Spider，定义 name、start_urls 和异步 parse()，然后在解析中 yield 数据或继续 follow() 下一页。官方示例中还设置了 concurrent_requests = 10，并把结果导出成 JSON 文件。

5）多会话与长任务控制

README 还展示了“一个 spider 使用多个 session”的方案：在 configure_sessions() 中分别注册 fast 和 stealth 会话，然后根据链接特征把请求路由到不同的 session。对于长爬取，官方建议把 crawldir 指向某个目录，支持断点恢复。

6）命令行与 Shell

在 CLI 部分，官方给出 scrapling shell 进入交互式 Shell；scrapling extract ... 可以直接从命令行导出页面内容，例如导出为 content.md、content.txt、content.html。README 还说明可以用 --css-selector 指定提取范围，也可以用 --impersonate 'chrome'、--no-headless、--solve-cloudflare 等参数控制抓取方式。

7）MCP 使用方式

仓库说明中，MCP Server 作为额外功能安装后，可用于 AI 辅助网页抓取。README 明确写到，Claude Desktop 之类的应用可以通过 http://localhost:8081/mcp 访问服务；在 Docker 环境中，MCP Server 会与 Web 应用一起运行。

Scrapling的案例应用

1）基础页面抓取案例

在“Basic Usage”里，仓库以 quotes.toscrape.com 为例，展示了如何先建立会话，再抓取页面中 .quote .text::text 这样的内容。这个案例体现的是 Scrapling 最基础的应用：通过 session 保持状态，再用选择器抽取目标文本。

2）反爬页面抓取案例

在高级 stealth 示例中，仓库直接使用 Cloudflare 保护演示页作为测试对象，展示了 StealthySession(headless=True, solve_cloudflare=True) 和 StealthyFetcher.fetch(...) 的效果。这个案例说明 Scrapling 适用于需要浏览器指纹伪装、验证码或反爬绕过的场景。

3）动态网页案例

README 中用 DynamicSession / DynamicFetcher 抓取 quotes.toscrape.com，并配合 load_dom=False、network_idle=True 等参数，体现了 Scrapling 在动态页面上的应用方式。这个案例适合前端渲染较多、需要完整浏览器上下文的页面。

4）全站爬虫案例

仓库给出了 QuotesSpider 示例：定义 spider 名称、起始 URL、并发数，在 parse() 中解析 quote 的文本和作者，并通过 response.follow() 进入下一页。这个案例展示了 Scrapling 从“采集一页”扩展到“爬完整站”的写法。

5）多会话路由案例

MultiSessionSpider 示例展示了如何同时配置 fast 和 stealth 两种会话：普通链接走普通 session，受保护链接走 stealth session。这个案例特别适合“部分页面简单、部分页面受保护”的混合型站点。

6）命令行直接导出案例

README 的 CLI 示例展示了不写代码也能完成采集：例如 scrapling extract get 'https://example.com' content.md、scrapling extract fetch ... --css-selector ...、scrapling extract stealthy-fetch ... --solve-cloudflare。这类案例适合快速验证页面内容、做临时导出或原型分析。