当前位置: 首页 > news >正文

如何将Scrapeless MCP服务器集成到ZeroClaw中:逐步指南

关键要点:

  • 一个TOML块将云浏览器连接到本地Rust代理。ZeroClaw是一个单一二进制AI代理运行时,它与LLM提供者通信,监听30多个频道,并通过工具进行操作。只需在~/.zeroclaw/config.toml中添加四行[mcp]块即可添加Scrapeless MCP服务器——无需SDK安装,无需管理守护进程,无需在代理端更改代码。
  • 二十个MCP工具,两个表面。Scrapeless MCP服务器公开了google_searchgoogle_trends、完整的browser_*云浏览器原始工具集,以及scrape_html/scrape_markdown/scrape_screenshot。Stdio传输通过npx -y scrapeless-mcp-server在本地运行;可流式传输的HTTP指向https://api.scrapeless.com/mcp
  • MCP和代理技能是互补的,而不是替代品。MCP服务器为ZeroClaw提供了工具;Scrapeless OpenClaw技能——webunlocker-skillllm-chat-scraper-skill——为其提供了底层Scrapeless API的使用方法。ZeroClaw从OpenClaw迁移,并读取相同的SKILL.md格式,因此技能可以放入~/.zeroclaw/workspace/skills/并通过zeroclaw skills list调用。
  • 反检测云浏览器,195多个国家的住宅代理。Scrapeless处理JavaScript渲染、住宅代理出口、指纹随机化(UA、时区、WebGL、画布)和会话持久性,因此ZeroClaw代理可以专注于任务,而不是规避细节。
  • 发现→提取适用于任何网站。使用google_search定位页面,使用scrape_markdown从JS渲染的SPA中提取干净文本,使用browser_*工具处理分页或交互流程,以及使用google_trends获取时间序列上下文。代理将它们组合在一起;协议中的内容并不针对特定目标。
  • 免费开始。新的Scrapeless账户包括免费的MCP运行时——在app.scrapeless.com注册。

介绍:从本地Rust代理到实时网络访问

ZeroClaw是一个完全在操作员机器上运行的Rust代理运行时。一个二进制,一个TOML配置,操作员的密钥,操作员的工作区。它与~20个LLM提供者通信,通过Discord、Telegram、Matrix、电子邮件、语音、网络钩子和CLI接入世界,并通过shell、浏览器、HTTP、硬件和MCP服务器工具进行操作。该31k星级的仓库构建了一个基于监督自治、操作系统级沙箱(Landlock、Bubblewrap、Seatbelt、Docker)和每个操作的加密工具凭证的安全模型。

任何本地代理运行时的基本限制与每个LLM面临的限制相同:模型的知识在训练截止时被冻结。对于研究、监控、潜在客户生成、竞争情报和针对实时发布者数据的RAG,这一限制在代理必须读取一个在模型训练时不存在的页面时显现出来。ZeroClaw内置的浏览器和HTTP工具覆盖了良性页面和文档查找;在Cloudflare、Akamai、reCAPTCHA或IP声誉过滤后面的商业页面则是这些工具未针对的不同表面。

这篇文章将讨论如何通过运行时支持的两种集成表面将Scrapeless连接到ZeroClaw:Scrapeless MCP服务器(向代理公开新工具的标准方式)和Scrapeless OpenClaw技能(代理加载的标准知识文件,以有效驱动这些工具)。两者相辅相成——MCP服务器是代理调用的内容;技能是告知它何时以及如何调用底层Scrapeless API的内容。对于通过其他客户端公开的相同Scrapeless原语,MCP服务器教程介绍了Claude Desktop / Cursor / Codex CLI,而Hermes集成文章涵盖了已经使用Chrome开发者工具协议的代理的直接CDP路径。


什么是ZeroClaw?

ZeroClaw是一个单一的Rust二进制文件,可以在操作员自己的机器上启动代理运行时。维护者将其描述为“你拥有代理,你拥有数据,你拥有它运行的机器。”该运行时围绕四个移动部分结构化:

  • 通道(30多个适配器)。来自Discord、Telegram、Matrix、电子邮件、语音、网络钩子、CLI和ACP IDE桥的输入消息——所有消息都路由到相同的代理循环。
  • 提供者(~20个LLM后端)。Anthropic、OpenAI、Ollama,任何与OpenAI兼容的端点。后备链和路由确保在提供者出问题时,代理能够正常运行。
  • 工具(shell、浏览器、HTTP、硬件、MCP)。操作表面。MCP服务器作为一流工具与内置工具一起注册。
  • 安全政策和标准操作程序引擎。默认自主权为监督:中风险操作需要批准,高风险操作被阻止。标准操作程序会在 MQTT、webhook、cron 或外部事件发生时触发,并带有批准门和可恢复运行。

配置存储在一个地方:~/.zeroclaw/config.toml。工作区——技能、内存、日志、MCP 状态——存储在~/.zeroclaw/workspace/下。来自 OpenClaw 的操作员可以直接导入工作区;技能格式是相同的。


为什么要为您的 ZeroClaw 代理添加网络访问

驱动 ZeroClaw 的 LLM 具有相同的限制:训练截止。在一个快速变化的环境中,产生三种可观察的故障模式——过时的答案、幻觉事实和对 URL 的工具调用,这些 URL 之后已经变更或返回 404。

ZeroClaw 内置了httpbrowser工具,涵盖了广泛的应用场景。它们并未针对商业网页进行优化:JS 渲染的 SPA、反机器人插页、验证码挑战和地理限制内容位于代理与操作员所需数据之间。将 Scrapeless 接入后,这些故障模式转变为正常的工具调用:

  • 通过google_search(Google,带本地化gl+hl参数)和google_trends(时间序列兴趣数据)进行实时研究
  • 通过scrape_markdown对多个结果 URL 进行跨源验证,在单个代理回合中完成。
  • 通过browser_*云浏览器原语进行实时数据收集,来自 JS 密集型网站——定价页面、市场列表、评论页面、公共目录。
  • 通过在特定国家分配会话进行地理绑定查询,使代理看到本地用户所见的内容。

如何使用 Scrapeless 扩展 ZeroClaw:两个接口

Scrapeless 通过两个接口支持 ZeroClaw,并可同时使用:

  • Scrapeless MCP 服务器— 官方服务器,通过模型上下文协议暴露 20 种云浏览器、SERP 和抓取工具。
  • Scrapeless OpenClaw 技能— 格式为SKILL.md的知识文件,教会代理如何有效地驱动 Scrapeless 通用抓取 API 和 LLM 聊天抓取器。ZeroClaw 可以直接导入 OpenClaw 技能。

MCP 服务器是代理调用的对象,而技能是代理读取以决定何时以及如何调用的内容。它们不是替代品——一起安装时,代理同时拥有工具和操作手册。

Scrapeless MCP 服务器

MCP 服务器开箱即用提供 20 种工具。核心工具集如下:

工具功能
google_search使用gl/hl本地化参数进行 SERP 检索。
google_trends流行搜索和时间序列兴趣数据。
scrape_markdown通过云浏览器呈现 URL,并返回 Markdown。
scrape_html同上,返回完整的渲染 HTML。
scrape_screenshot捕获任何页面的高质量截图。
browser_create分配(或重用)云浏览器会话。
browser_goto导航会话至某个 URL。
browser_click/browser_type/browser_press_key驱动交互式页面元素。
browser_scroll/browser_scroll_to触发懒加载内容。
browser_get_html/browser_get_text从当前云浏览器页面提取。
browser_screenshot/browser_snapshot捕获状态以供审查或后续处理。
browser_wait_for/browser_wait等待选择器或固定持续时间。
browser_close释放会话。

支持两种传输方式。标准输入(npx -y scrapeless-mcp-server)是本地运行 ZeroClaw 的工作站的默认方式;可流式传输的 HTTP(https://api.scrapeless.com/mcp)是当代理在远程主机上运行,并且操作员希望由 Scrapeless 托管 MCP 服务器,而不是每次调用时创建时的默认方式。

Scrapeless OpenClaw 技能

这些技能是具有小型 Python 运行时的SKILL.md文件,封装了特定的 Scrapeless API。二者都在官方 Scrapeless GitHub 组织中发布:

技能教导代理的内容
webunlocker-skill驱动 Scrapeless 通用抓取 API——抓取 HTML / 普通文本 / Markdown / 截图 / 结构化内容,并自动解决验证码(reCAPTCHA、Cloudflare Turnstile、Cloudflare Challenge)、JS 渲染、住宅代理出口带--country,重试,以及支持 POST + 自定义头。
llm-chat-scraper-skill收集来自 ChatGPT、Gemini、Perplexity 和 Grok 的结构化聊天响应——用于 AI 搜索监测和 GEO 测量工作流。

ZeroClaw 继承了 OpenClaw 技能格式。技能被克隆到~/.zeroclaw/workspace/skills/中,通过zeroclaw skills list列出,并在下次zeroclaw agent会话中对代理可用。

你可以用它做什么

  • 每日监控代理。安排一个每天早上运行的 ZeroClaw SOP:google_search跟踪的关键词,scrape_markdown三个最好的结果,进行总结,通过 Discord 渠道适配器发送。
  • AI 搜索可见性跟踪。使用 LLM Chat Scraper 技能,按节奏提取 ChatGPT、Gemini、Perplexity 和 Grok 对品牌相关提示的响应;跟踪随时间变化的存在感和情绪。
  • 来自公共目录的潜在客户生成。通过分页公共目录驱动云浏览器,通过域名去重,将记录交给代理的内存存储。
  • 有人工参与的身份验证表单填写。将供应商入职或职位申请表驱动到最终审查屏幕,拍摄全页屏幕截图,在提交前停止,以便人工批准。
  • 与地理限制的竞争对手定价对比。在特定国家分配会话,呈现本地化定价页面,与之前的快照进行比较,当阈值触发时向频道发送消息。
  • 基于实时出版商数据的 RAG。渲染出版商页面,通过scrape_markdown清理文本,嵌入到 ZeroClaw 的 SQLite + 嵌入内存中,以便将来检索。
  • 绕过 Cloudflare 针对良性研究目标。Web Unlocker 技能自动处理 Turnstile 和 Challenge 页面;代理只看到干净的 Markdown 有效载荷。

在 Scrapeless,我们只访问公开可用的数据,并严格遵守适用的法律、法规和网站隐私政策。本文内容仅供演示用途。


为什么选择 Scrapeless

Scrapeless 是一个抗检测的云浏览器,加上一个通用抓取 API,加上一个 SERP API,再加上一个 LLM Chat Scraper,所有这一切都通过一个 API 密钥进行。具体到 ZeroClaw,它提供:

  • 一个本地的 MCP 服务器— 无需安装 SDK,无需适配器代码。~/.zeroclaw/config.toml中的 MCP 块即是整个集成。
  • 云端 JavaScript 渲染,使单页应用(SPA)、无限滚动 feeds 和懒加载面板成为browser_*工具和scrape_markdown的优先目标。
  • 覆盖195个以上国家的住宅代理,使得与地理相关的查询返回当地用户看到的列表。
  • 每个会话的抗检测指纹识别— UA、时区、语言、屏幕分辨率、WebGL、画布每个会话随机化。
  • 自动 CAPTCHA 解决,支持 reCAPTCHA、Cloudflare Turnstile 和 Cloudflare Challenge 通过 Web Unlocker 界面。
  • 一个统一的管理界面— 一个 API 密钥,一个仪表板,新的账户计划中有免费运行时间积分。

在 app.scrapeless.com 上获取免费计划的 API 密钥。完整的 MCP 工具界面文档在 github.com/scrapeless-ai/scrapeless-mcp-server;API 接口文档在 docs.scrapeless.com。


先决条件

  • 类 UNIX 主机。Linux、macOS 或 Windows 上的 WSL2。ZeroClaw 发布 Windows 版本,但安装脚本和技能脚本假设为 POSIX shell,因此最佳路径是 Linux / macOS / WSL2。
  • Node.js 18 或更新版本用于 MCP stdio 传输(npx -y scrapeless-mcp-server)。
  • Python 3.10 或更新版本用于 OpenClaw 技能(它们作为 Python 脚本在scripts/中提供)。
  • Rust 工具链如果从源代码安装;预构建的二进制路径不需要额外内容。
  • Scrapeless 账户和 API 密钥— 在 app.scrapeless.com 注册,并从设置 → API 密钥管理中复制密钥。
  • LLM 提供者密钥— Anthropic、OpenAI、Ollama 或任何兼容 OpenAI 的端点。ZeroClaw 的入职向导会将其接入。
  • git用于克隆技能代码库。
  • jq是可选的 — 在管道 CLI 输出时很方便,但 MCP 路径并不需要。

安装 ZeroClaw

完整设置分为两个子步骤。

1. 运行安装程序

bashCopy

curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/master/install.sh | bash

安装程序会询问是否获取预构建的二进制文件(约几秒)或从源代码构建(速度较慢,可定制)。两者最终都会以相同方式结束 —zeroclaw onboard会自动启动。要跳过最后的向导,请传递--skip-onboard并在之后运行zeroclaw onboard

验证二进制文件是否在路径上:

bashCopy

zeroclaw --version

输出应类似于zeroclaw 0.7.5或更新版本。

2. 完成入职向导

bashCopy

zeroclaw onboard

向导将引导您选择提供者、线路通道、自主模式和个性化。对于此集成,有两个设置很重要:

  • 提供者— 选择已经配置的 LLM 提供者(OpenAI、Anthropic、Ollama、兼容 OpenAI 的网关)。在提示时粘贴 API 密钥。
  • 自主性受监督是安全的默认设置;代理将在调用中风险工具之前提示。MCP工具默认计算为中等风险。对于提示造成摩擦的开发环境,向导还提供yolo模式,操作员仅应在信任的机器上开启。

通过启动聊天确认运行时已启动:

bashCopy

zeroclaw agent

如果返回“嘿!”则应正常完成。如果是,则运行时健康,下一步是连接MCP服务器。


将ZeroClaw连接到Scrapeless MCP服务器

1. 在ZeroClaw外部进行MCP服务器的烟雾测试

在将MCP块添加到config.toml之前,确认服务器能够独立启动。ZeroClaw在代理启动时懒加载MCP服务器,因此只有在代理第一次运行时,错误的配置才会暴露——最好现在就捕捉它:

bashCopy

SCRAPELESS_KEY="<YOUR_SCRAPELESS_KEY>" npx -y scrapeless-mcp-server

在第一次运行时,npx从注册表下载scrapeless-mcp-server,并通过标准输入启动服务器。该进程保持附加状态;按Ctrl-C释放它。如果它打印了启动横幅并等待MCP请求,则凭证和包都有效。

在免费计划中获取您的API密钥:app.scrapeless.com

2. 将MCP块添加到~/.zeroclaw/config.toml

ZeroClaw从全局配置中的[mcp]块读取MCP服务器配置。添加(或合并)以下内容:

tomlCopy

# ~/.zeroclaw/config.toml [mcp] enabled = true deferred_loading = true servers = [ { name = "scrapeless", command = "npx", transport = "stdio", args = ["-y", "scrapeless-mcp-server"], env = { SCRAPELESS_KEY = "<YOUR_SCRAPELESS_KEY>" }, headers = {} } ]

注意:

  • enabled = true激活MCP子系统。最近的ZeroClaw版本默认为关闭状态。

  • deferred_loading = true保持守护进程启动快速;ZeroClaw仅在代理实际启动会话时生成npx

  • env.SCRAPELESS_KEY是身份验证表面——与步骤1中的烟雾测试使用的密钥相同。

  • 对于托管的可流式HTTP传输而不是标准输入,交换条目为:

    tomlCopy

    { name = "scrapeless", transport = "http", url = "https://api.scrapeless.com/mcp", headers = { "x-api-token" = "<YOUR_SCRAPELESS_KEY>" } }

    ZeroClaw的MCP客户端堆栈支持三种传输值——stdiohttpsse——通过验证强制执行标准输入的command/args以及远程传输的url/headers(根据ZeroClaw问题#1380)。当ZeroClaw在远程主机(VPS或容器)上运行且操作员不希望npx在其中运行时,HTTP传输是正确的默认值。

3. 从ZeroClaw内部验证连接

重新启动代理会话,以使其获取新配置并懒加载MCP服务器:

bashCopy

zeroclaw agent

在新聊天中,询问:

Copy

您可以访问哪些Scrapeless MCP工具?

代理应列出之前提到的20个工具 ——google_searchgoogle_trendsbrowser_*集合、scrape_htmlscrape_markdownscrape_screenshot。如果答案说没有工具,最常见的原因是[mcp]中的enabled = false;第二常见原因是SCRAPELESS_KEY中的拼写错误。


安装Scrapeless OpenClaw技能

MCP服务器是工具。技能是剧本。两个Scrapeless技能与ZeroClaw配合使用,因为运行时直接支持OpenClaw技能格式。

1. 在~/.zeroclaw/config.toml中允许技能脚本

两个Scrapeless技能都提供scripts/目录,代理将在其中执行。设置[skills]部分中的allow_scripts = true

tomlCopy

# ~/.zeroclaw/config.toml [skills] allow_scripts = true

allow_scripts默认关闭以确保安全。开启它则允许ZeroClaw根据已经实施的自主权政策运行技能打包的脚本;中风险的脚本调用仍会在受监督模式下请求批准。

2. 克隆技能库

bashCopy

mkdir -p ~/.zeroclaw/workspace/skills git clone https://github.com/scrapeless-ai/webunlocker-skill ~/.zeroclaw/workspace/skills/webunlocker-skill git clone https://github.com/scrapeless-ai/llm-chat-scraper-skill ~/.zeroclaw/workspace/skills/llm-chat-scraper-skill

3. 安装Python依赖和API令牌

Web Unlocker技能提供requirements.txt

bashCopy

cd ~/.zeroclaw/workspace/skills/webunlocker-skill pip install -r requirements.txt cp .env.example .env # 然后编辑 .env 并设置 X_API_TOKEN=<YOUR_SCRAPELESS_KEY>

如果在代理的范围内,也对LLM Chat Scraper技能重复执行此操作。

4. 验证技能是否在ZeroClaw中可见

bashCopy

zeroclaw skills list

输出应包括webunlocker-skillllm-chat-scraper-skill。如果缺少它们,最常见的原因是克隆落在~/.zeroclaw/skills/下而不是~/.zeroclaw/workspace/skills/— 后者是运行时监视的路径。


ZeroClaw + Scrapeless 实践案例

一个现实的示例:运营者跟踪的主题的每日竞争情报简报。代理定位新鲜来源,提取内容,并生成结构化摘要,通过代理绑定的任一渠道发送。

zeroclaw agent中,粘贴:

Copy

为我生成关于“AI 代理框架”的过去 7 天的竞争情报简报。 1. 使用 Scrapeless MCP `google_search` 工具找到本周发布的 5 条最相关的新闻/博客 文章。使用 gl=us, hl=en。 2. 对于每个结果 URL,使用 `scrape_markdown` 提取文章正文。丢弃 导航内容和广告。 3. 使用 `google_trends` 获取查询 “AI 代理框架”的 7 天兴趣曲线,以便我能够将需求信号与供应信号结合起来。 4. 生成结构化的 Markdown 报告,包含: - 5 篇文章中的前三大主题,每个主题附有一段总结和 来源 URL。 - 7 天的趋势方向 (上升/平稳/下降)及峰值日期。 - 一条“本周的变化”提示——相较于上周的简报,有什么新内容。 如果目标页面阻止云浏览器,退回到 `browser_create` + `browser_goto` + `browser_get_text` 仅针对该 URL。不要替换合成 内容;如果无法检索来源,将其列在“未检索来源”下。

代理的计划,通俗易懂:

  1. 调用google_search(q="AI agent frameworks", gl="us", hl="en")并选择看起来像主要来源的五个最新结果(跳过聚合页面)。
  2. 通过scrape_markdown处理 URLs,并将清理后的正文文本保存在工作内存中。
  3. 调用google_trends(q="AI agent frameworks", date="now 7-d")获取兴趣曲线。
  4. 汇总成 Markdown 简报。
  5. 对于任何通过scrape_markdown返回反机器人插页的 URL,通过browser_createbrowser_gotobrowser_get_text链进行重试,以启动车载浏览器会话并等待加载后再提取。

在每次工具调用之前,ZeroClaw 的supervised自主模式会提示确认 —Y表示一次性确认,A表示在同一会话中记住该权限以供将来工具调用使用。

要发送提示而无需进入交互聊天:

bashCopy

zeroclaw agent --message "为我生成关于 AI 代理框架的过去 7 天的竞争情报简报……"

要将此转变为计划运行而非临时提示,请在 cron 日程上注册 SOP,并将其绑定到代理应通过的任一信道适配器(Discord、Telegram、电子邮件)交付简报。MCP 工具和技能保持不变;只有触发器发生更改。


您将收到的内容

简报将以 Markdown 格式返回,内容如下 — 摘自以上提示对五个实时 SERP 结果"AI agent frameworks 2026"的实际运行:

markdownCopy

# AI 代理框架 — 每周简报(2026年5月12日当周) ## 主题(过去 7 天) 1. **LangGraph 是共识生产标准。** 本周发布的所有三篇深入 比较(Towards AI、GuruSup、Alice Labs)均将 LangGraph 排在生产工作负载的第一位。引用的原因趋同: 确定性图形执行、原生的人机交互检查点, 以及通过 LangSmith 提供的一流可观察性。 来源: https://pub.towardsai.net/top-ai-agent-frameworks-in-2026-a-production-ready-comparison-7ba5e39ad56d 2. **MCP 正在成为跨框架工具集成标准。** Anthropic 的模型上下文协议 — 现由 Linux 基金会管理, OpenAI、Google、Microsoft、AWS 和 Salesforce 均在支持者名单上 — 在三篇比较中的两篇中被引用为代理与工具的标准。 来源: https://gurusup.com/blog/best-multi-agent-frameworks-2026 3. **AutoGen / AG2 分裂是 2025–2026 年的主要发展。** Microsoft 已将 AutoGen 重写为 v0.4+ 并提供了新 API;社区继续使用 v0.2 系列作为 AG2 (ag2.ai)。无论是 Alice Labs 还是 GuruSup 都指出这是团队评估多代理争辩框架时的“刻意选择”时刻。 来源: https://alicelabs.ai/en/insights/best-ai-agent-frameworks-2026 ## 需求信号 - 7 天趋势:不可用(google_trends 在此运行中返回了暂时的上游错误 — 在下一个调度中重试) ## 本周变化 - Alice Labs 添加 Claude Agent SDK 作为新进入者,排名第 2,取代 CrewAI 排名第 3 — 这是我们见过的第一个将 Anthropic 官方 SDK 提升至 多代理通用者之上的排名。 - AutoGen / AG2 分叉状态在三篇文章中提及 2 次,较上周的 0 次有所增加。 ## 未检索来源 - (无 — alicelabs.ai SPA 要求使用 browser_* 回退路径;已恢复)

结构遵循提示;值是经过验证的工具链在简报运行当天实际返回的结果。一些基于实况运行的诚实观察:

  • scrape_markdown很好地清理了大多数出版商页面。在第一次尝试中,Towards AI 和 GuruSup 返回了干净的 Markdown 正文。高度 JavaScript 渲染的单页应用(在此运行中,alicelabs.ai 是一个 Webflow / Vite SPA)则返回了渲染后的 HTML 外壳 — 代理通过browser_createbrowser_gotobrowser_get_text链完成恢复,返回了包括排名列表、关键要点、FAQ 和 2026年5月的更新时间戳在内的完整结构化页面快照。
  • google_trends反映兴趣而非量 — 有时呈现短暂性。在验证运行中,上游 Trends 调用返回了load failed错误;该提示通过报告缺口而不是替换合成数据来处理这一情况。正确的重试策略是下一个计划运行,而不是在同一代理回合内部进行热重试。
  • 每个来源的新鲜度各不相同。一些出版商在更新文章时会补充时间戳;如果“新鲜度”绝对重要,请交叉检查文章正文中的发布日期,而不是SERP摘要。(在此运行中的 Alice Labs 页面显示了2026年4月的发布日期和2026年5月的更新日期。)
  • 反机器人插页和 SPA 外壳是正常现象,而非例外。在任何涉及大规模商业网站的提示中,都要为browser_*回退预留预算;验证运行在三分之一的 URL 中遇到了一个,恢复过程没有事件发生。

结论:一个读取实时网络的代理

ZeroClaw + Scrapeless 集成将操作员运行的步骤减少到四个:安装 ZeroClaw,在~/.zeroclaw/config.toml中注册 Scrapeless MCP 服务器,将 OpenClaw 技能放入~/.zeroclaw/workspace/skills/,并通过zeroclaw skills list和在zeroclaw agent中的工具列表提示进行验证。之后,每一个接触网络的代理回合 — 研究、监控、潜在客户生成、RAG 摄取、AI 搜索可见性跟踪 — 都通过云浏览器、住宅代理和一个 API 密钥背后的 SERP API。

对于其他客户端中的相同 Scrapeless 原语,MCP 服务器教程 涉及 Claude Desktop / Cursor / Codex CLI,Hermes 集成帖子 涉及直接 CDP,LangChain 集成帖子 涉及 Python 代理。它们之间的模式是相同的:固定一个住宅区域,在多步骤流程中保持会话活跃,将反机器人插页视为重试案例而非例外,并让代理组合google_searchscrape_markdownbrowser_*,以满足提示的实际要求。


准备构建您的 AI 驱动数据管道了吗?

加入我们的社区以领取免费计划,并与在 Scrapeless 上构建本地代理管道的开发者联系:Discord · Telegram。

在 app.scrapeless.com 注册以获得免费的 MCP 运行时,并将上述模式适应于 ZeroClaw 代理已经运行的任何工作流。


常见问题解答

Q1. Scrapeless MCP 服务器在 Windows 上工作,还是仅在 Linux / macOS 上?
MCP 服务器是一个 Node.js 包 — 它可以在任何运行 Node 18+ 的地方运行,包括 Windows。ZeroClaw 的安装程序假设使用 POSIX shell,因此在 Windows 上最顺畅的路径是 WSL2。HTTP 传输变体(将 ZeroClaw 指向https://api.scrapeless.com/mcp)完全消除了本地npx依赖,并且对于托管的 ZeroClaw 部署是最简单的选择。

Q2. Stdio 还是可流式 HTTP — 哪种传输是正确的默认选择?
对于本地运行 ZeroClaw 的工作站,使用 stdio。生命周期很简单:ZeroClaw 在代理启动时生成npx -y scrapeless-mcp-server,在代理停止时终止它。对于在 VPS 上或在容器中运行的 ZeroClaw,使用 HTTP。Scrapeless 托管的端点消除了将npx和 Node 打包到运行时镜像中的需求。

Q3. 抓取公共网络数据是否合法?
通常是合法的,当数据是公开可见的,并且工作流遵循每个网站的服务条款和适用的法律管辖区。法律立场因国家、网站和使用案例(研究、商业转售、训练数据)而异。在针对目标网站扩大工作流之前,请审查其服务条款,并咨询法律顾问以应对高容量或受监管的使用案例。

Q4. MCP 服务器和 OpenClaw 技能是否重叠?
它们是互补的。MCP 服务器给代理提供工具— 具体的、可调用的接口(google_searchscrape_markdownbrowser_*)。技能则赋予代理知识— Scrapeless 通用抓取 API 的行为,何时回退到 JS 渲染,应该请求何种响应类型,如何将 CAPTCHA 解决与国家选择链式连接。一起安装,代理同时拥有这两者。

Q5. 当目标页面返回反机器人中介页面时会发生什么?
对于大多数页面的scrape_markdown,云浏览器透明地解决挑战。对于仍然返回中介页面的页面,标准的回退是browser_createbrowser_gotobrowser_wait_for(一个已知的后挑战选择器) →browser_get_text。在任何接触商业网站的提示中为此回退留出预算;上面的提示示例展示了其形态。

Q6. ZeroClaw 的自主模式如何与 MCP 工具调用互动?
supervised(默认)模式下,代理在首次调用每个 MCP 工具之前会提示一次。操作员可以授予一次性批准(Y)或记住此工具批准(A)。在yolo模式下,代理在没有提示的情况下调用工具;该模式仅适用于受信任的开发盒子。

Q7. 代理可以在单个回合中将 Scrapeless 调用组合成多步骤流程吗?
可以 — 这是设计的要点。单个代理回合通常链式连接google_search(定位)、scrape_markdown(从规范 URL 提取)和browser_*(回退到互动或反机器人保护页面)。ZeroClaw 将中间的工具调用流入同一对话上下文中。

Q8. Scrapeless API 密钥存放在哪里?
对于 MCP 路径,在~/.zeroclaw/config.toml中的env.SCRAPELESS_KEY(或在可流式传输的 HTTPx-api-token头中)。对于技能路径,在每个技能目录中的.env文件里作为X_API_TOKEN。这两条路径是独立的;轮换密钥意味着需要更新两个位置。

Q9. ZeroClaw SOP 可以按计划触发相同的提示吗?
可以。使用 cron 触发器注册一个 SOP,该触发器运行操作员会粘贴到zeroclaw agent --message "..."中的相同提示。将 SOP 绑定到一个通道适配器(Discord、Telegram、电子邮件),简报将自动发送。supervised模式下的 SOP 仍然需要在批准后再进行中等风险的工具调用;对于无人值守的定期运行,SOP 需要在更宽松的自主模式下配置或预先授予工具权限。

Q10. 关于 Scrapeless 的其他产品 — 抓取浏览器、通用抓取 API、SERP API 呢?
MCP 服务器将最常见的云浏览器、SERP 和抓取基础组件打包成一个 MCP 接口。对于需要直接使用完整抓取浏览器基础组件集的工作流(CDP、自定义指纹、以session_ttl粒度的会话持久性),请将 抓取浏览器 CDP 端点 接入 ZeroClaw 的内置browser工具中。两种方法是组合的,它们并不冲突。

http://www.jsqmd.com/news/857993/

相关文章:

  • Windows音频设备切换神器:AudioSwitch让你的音频管理效率提升300%
  • DellFanManagement终极指南:彻底掌控戴尔笔记本散热与噪音
  • 当蒸汽波遇上日本City Pop:跨文化风格融合的5层语义对齐法,实测提升风格一致性达91.4%(附对比热力图)
  • 台州华声汽车音响改装店推荐,资深玩家都去这几家
  • 网络诊断工具终极指南:iperf3 Windows版完整教程与性能测试
  • 免费压缩包密码恢复工具:ArchivePasswordTestTool终极指南
  • Ryujinx完整指南:5步快速上手开源Switch模拟器
  • 初创公司利用Taotoken快速原型验证多个AI模型效果
  • 青少年近视防控方案技术选型:三套主流架构的落地分析与避坑指南
  • 2026年|AIGC率太高怎么办?10个去AI痕迹指令+3款降AI工具实测,AI率99.9%降至5.7% - 降AI实验室
  • Cortex-Debug架构深度解析:从GDB MI协议到VSCode调试体验的完整实现
  • 【2026】版最新网络安全入门必知的攻击方法,零基础入门到精通,收藏这篇就够了
  • GEO 3.0范式下的服务商能力图谱与企业选型体系:生成式AI时代品牌认知资产构建指南
  • 终极二维码修复指南:免费在线工具QrazyBox完整使用教程
  • FRED案例:矩形微透镜阵列
  • 为什么很多扩音设备总是啸叫?这块语音模组可能就是答案
  • 5分钟搞定小程序多级选择:Vant Weapp级联选择器终极指南
  • 黎阳之光人员无感技术——赋能边防与城市智慧发展
  • 从零开始:Ryujinx Switch模拟器完全配置指南
  • 如何快速配置AudioSwitch:Windows音频管理的完整解决方案
  • WPS 重营销、轻基础底层,劫持注册表让office没法用
  • Stable-Diffusion模型中常见 Stable Diffusion Sampling 方法
  • DDrawCompat完整指南:3步让Windows 11完美运行经典老游戏的终极兼容性修复方案
  • 【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点
  • Cursor VIP共享方案终极指南:三步免费解锁AI编程神器的完整教程
  • 计算机专业生打 CTF 全指南:从新手小白到赛事拿分,附实战避坑手册_ctf比赛自己带电脑吗
  • Windows 10/11(64位)上安装 WinQSB——无需虚拟机
  • 3步构建现代P2P文件传输系统:探索小鹿快传的技术架构
  • 超实用逛展攻略,助您畅游第27届全国医院建设大会!5月23日,itc保伦股份与您不见不散~ - 品牌速递
  • 收藏!想进大模型行业?一文搞懂5大核心岗位,小白也能轻松入门!