OpenClaw从入门到应用——工具(Tools):Firecrawl
通过OpenClaw实现副业收入:《OpenClaw赚钱实录:从“养龙虾“到可持续变现的实践指南》
OpenClaw 可以使用Firecrawl作为web_fetch的后备提取器。它是一个托管式内容提取服务,支持绕过机器人检测和缓存,有助于处理 JavaScript 密集型网站或拦截普通 HTTP 抓取的页面。
获取 API 密钥
- 创建一个 Firecrawl 帐户并生成一个 API 密钥。
- 将其存储在配置中,或者在网关环境中设置
FIRECRAWL_API_KEY。
配置 Firecrawl
{ tools: { web: { fetch: { firecrawl: { apiKey: "FIRECRAWL_API_KEY_HERE", baseUrl: "https://api.firecrawl.dev", onlyMainContent: true, maxAgeMs: 172800000, timeoutSeconds: 60, }, }, }, }, }注意事项:
firecrawl.enabled默认为true,除非显式设置为false。- Firecrawl 后备尝试仅在 API 密钥可用(
tools.web.fetch.firecrawl.apiKey或FIRECRAWL_API_KEY)时才会运行。 maxAgeMs控制缓存结果的最大有效时长(毫秒)。默认为 2 天。
隐身模式 / 绕过机器人检测
Firecrawl 公开了一个代理模式参数,用于绕过机器人检测(basic、stealth或auto)。
对于 Firecrawl 请求,OpenClaw 始终使用proxy: "auto"加上storeInCache: true。
如果省略代理设置,Firecrawl 默认使用auto。auto模式会在基本尝试失败后,使用隐身代理进行重试,这可能会比仅进行基本抓取消耗更多额度。
web_fetch如何使用 Firecrawl
web_fetch的提取顺序:
- 可读性提取(本地)
- Firecrawl(如果已配置)
- 基本的 HTML 清理(最终后备方案)
有关完整的网页工具设置,请参见 Web 工具。
