当前位置: 首页 > news >正文

多平台 Web Scraping 实战指南:用 Bright Data + MCP 实现自动化数据采集(2026)

多平台 Web Scraping 实战指南:用 Bright Data + MCP 实现自动化数据采集(2026)

一、前言

如果你做过多平台 web scraping,你一定踩过这些坑:IP 被封、CAPTCHA 无限弹、网站一改版脚本全崩。各平台结构规则不一、站点改版易导致解析失效、Agent汇总数据缺乏可追溯性等问题频发。

落地关键在于两点:一是将网页检索、抓取等工作交给专业采集基础设施,二是通过标准协议将采集能力对接MCP以及相关SKILL,正是解决这一问题的关键。Bright Data MCP是一个企业级数据采集平台,无需用户搭建和维护基础设施,支持弹性扩展,搭配SKILL让模型统一调用采集工具,由服务端承担解锁和采集工作,高效应对采集痛点。

本质上,这种方式是把最耗时且不稳定的反爬与采集问题交给专业基础设施处理,让多平台数据采集更接近工程化可控。地址:https://get.brightdata.com/mcpserver-m

二、数据流架构

用户只需提供站点和关键词,Bright Data MCP自动处理抓取与反爬,Claude按SKILL.md规则调用对应结构化工具(无专用工具时降级用Markdown抓取),最终统一输出固定Schema的JSON供下游直接使用。

用户输入(商品 URL / 关键词 + 站点) ↓ 已连接 Bright Data MCP ↓ 按 SKILL.md 优先级调用工具 ↓ 统一 JSON(见 Skill 中的 Schema) ↓ 下游表格、监控或存储

三、环境

  • Bright Data 账号(用于获取 MCP 配置和 API Token):点击链接
  • Claude Desktop / Claude Code/Cursor/CodeX都可以,可以配置MCP
  • 多平台数据采集 Skill
  • python运行环境(最好3.0+)

四、配置 Bright Data MCP Server

登录到Bright Data后台控制面板,点击左侧“AI网关”菜单,然后选择“MCP”

在“选择工具”中选择“电子商务”,然后点击继续配置

在配置和集成中选择“本地”,然后点击“复制并关闭”

接下来就可以看到我们的的MCP配置已经设置成功了,可以免费5000次请求

{ "mcpServers": { "Bright Data": { "command": "npx", "args": ["@brightdata/mcp"], "env": { "API_TOKEN": "YOUR_BRIGHTDATA_API_KEY", "GROUPS": "advanced_scraping,ecommerce" } } } }

说明:YOUR_BRIGHTDATA_API_KEY 为官方文档中的环境变量名;GROUPS 取 ecommerce 以包含 Amazon / eBay 等电商类 web_data_,advanced_scraping 用于 extract、scrape_batch 等辅助能力;POLLING_TIMEOUT 控制 web_data_轮询等待时间(秒)。

在设置-用户管理界面还有促销代码

然后输入mao20折扣码,就可以获得20美元体验金。

五、启用 Skill

将skill放到claude、cursor 、codeX都是可以的,这里我拿cursor示例。首先可以配置下rules,用户在 Cursor 中讨论 Bright Data 多平台采集时,提醒先读取仓库中的 SKILL.md。在路径.cursor/rules/brightdata-multi-platform.mdc配置如下

--- description: (可选,仅 Cursor)当用户在 Cursor 中讨论 Bright Data 多平台采集时,提醒先读取仓库中的 SKILL.md。 globs: alwaysApply: false --- 以下仅在 **使用 Cursor 作为 MCP 宿主** 时起辅助作用;**Skill 正文以仓库根目录 `SKILL.md` 为准**,本规则不能替代该文件。 当对话涉及 **Amazon、eBay、Temu** 商品抓取或多平台数据采集,且用户意图依赖 **Bright Data MCP** 时: 1. 读取 **`SKILL.md`**(若工作区根目录为本仓库则路径为根目录 `SKILL.md`,否则可能是 **`brightdata-claude-kit/SKILL.md`**);亦可通过 **`@SKILL.md`** 由用户显式附加。 2. 禁止在未调用 MCP 工具并得到返回前编造价格、评分或库存。 3. 输出须符合 `SKILL.md` 中的 JSON Schema,并包含 **`raw_tool`**。

接下来配置下skills,在路径.cursor/rules/brightdata-multi-platform/SKILL.md配置你的skills,我已把skills上传到githup,可自取。

比如我想爬取亚马逊的商品数据输入提示词:

Amazon 搜索「冲锋衣」,站点首页:https://www.amazon.com,爬取10页;优先 web_data_amazon_product_search,否则页面抓取;输出完整 JSON

可以看到MCP会自动调用SKILL去进行操作

最终输出的结果如下:

接着我想爬取eBay上的商品数据。输入下面的关键字

关键词「冲锋衣」,这次改成在 eBay(ebay.com) 上找。先帮我搜出几条正常的商品链接(链接里有 /itm/),再抓标题、价格这些,最后用 JSON 给我。

执行之后

最终爬取到结果如下:

FAQ

1、Bright Data MCP 是免费的吗?

是的,MCP 提供免费额度,并支持 AI Agent 实时访问 Web 数据。

2、哪种 proxy 最适合 web scraping?

Residential proxies 最适合高反爬网站,因为其真实用户 IP 更难被检测。

3、可以用 proxy 抓 Google 吗?

不可以,必须使用 SERP API,否则会返回 HTTP 403。

4、MCP 和 Web Scraper API 有什么区别?

MCP 是调用层,Web Scraper API 是数据采集执行层。

六、总结

以前要做跨平台商品比价,要么自己写爬虫、租代理、折腾反爬,要么维护好几套脚本累死人。各平台经常改版,光修解析就能把人耗光。自建爬虫的成本不在“写代码”,而在“长期维护反爬”。Bright Data + MCP 的价值在于:把最难、最不稳定的部分(代理、解锁、解析)完全外包,让你只关注数据本身。

  • 接入 Bright Data MCP:专门做采集的基础设施,反爬、代理、解析全交给它,你只管拿结果。
  • 配一个 Skill(SKILL.md):告诉 Claude 先调哪个工具、输出什么格式,防止模型瞎编字段。
  • 分平台处理:Amazon、eBay 有现成的结构化接口(web_data_*),Temu 没有就改用 Markdown 抓取再提取,一样能跑。

最后你只需要在 Claude、Cursor 里配置好 MCP,给个关键词和站点,剩下的自动执行,返回统一格式的 JSON。不管是自己看价格、存数据库,还是做监控告警,下游直接接就行。

如果想快速验证这套方案,可以直接跑一下本文中用到的skill不用自己写爬虫、不用管反爬、不用担心改版崩掉,只需要等结果就行。

http://www.jsqmd.com/news/779952/

相关文章:

  • MySQL 中高效存储与查询时间数据的最佳实践
  • jieba-analysis(Java 版结巴分词)
  • 三步解锁网盘直链下载:告别繁琐的智能助手方案
  • Hivemind:去中心化P2P深度学习训练框架原理与实践
  • 基于MCP协议与Apify的英国企业合规智能查询引擎实战指南
  • Linux基础3
  • 从零打造专属VSCode深色主题:设计、开发与发布全流程
  • 大模型行业应用落地——从辅助工具到产业革新
  • 企业级AI助手技能库:模块化设计与自动化工作流实践
  • Opencode集成Cursor AI:本地代理服务实现跨编辑器AI编程
  • SQL如何统计各分组下指标的波动率_STDDEV聚合函数应用
  • 风险投资中非正式社交的价值:从人际网络到融资策略
  • 论文AI率怎么降?来看这3大指令与4款实测工具
  • 深度学习对抗攻防全解析 | 全网独家实战,从 FGSM 到 PGD 核心攻击复现 + 工业级防御策略,覆盖图像分类 / 自动驾驶 / 人脸识别全场景
  • 打通ModelScope与私有仓库:模型同步与格式转换工具详解
  • 全球化时代工程师职业路径选择:从硅谷神话到多元生态
  • 大模型发展现状解析——竞争格局与技术演进
  • CSS解决浮动元素导致的布局闪烁_稳定容器布局高度
  • 使用 ESP8266 + Arduino IDE + ST7789 240*240 OLED 显示屏实现显示“Hello World!”
  • 应对2026算法更新:告别逻辑断层,10款论文降AI工具实测盘点
  • 构建内容生成流水线时如何集成Taotoken实现模型自动选型
  • mem.net:.NET高性能内存数据结构实战与优化指南
  • 实战指南:基于OpenClaw框架为企业微信接入AI智能体
  • 2026现阶段混凝土预制光伏配重墩专业制造商推荐:宣化区岩清水泥制品厂 - 2026年企业推荐榜
  • General Translation:基于组件翻译的React国际化新范式
  • 2026年现阶段,丰台区市政工程检查井盖板优质供应商深度解析 - 2026年企业推荐榜
  • Archlinux微信中文输入法问题
  • Alfred集成Ollama:打造macOS本地AI无缝工作流
  • Git Worktree管理器:提升多分支并行开发效率的Rust工具
  • Random Forest 涨点改进|全网独家复现|特征增强 + 可解释性优化,助力血细胞异常检测临床级精准识别