当前位置: 首页 > news >正文

我花了半天时间,用Python开发了一个CLI爬虫智能体

我花了半天时间,用Python开发了一个CLI爬虫智能体,可以实现自动化采集Tiktok上公开的商品数据信息,可以通过商品url、店铺url、关键词等进行采集,一行命令直接拿到结果表。

最关键的是,这个商品采集智能体集成了DeepSeek V4分析功能,能全方位分析商品信息,形成一份专业的分析markdown报告,指导竞品调研、打造爆款、选品策略等。

开发这个智能体需要用到的技术栈有Python、requests库、OpenAI库、scraper APIs、Trae。

其中,Python requests用于编写商品采集脚本,请求Tiktok网页数据,并构建完整的智能体框架,OpenAI库用于接入DeepSeek API,实现AI分析功能。

scraper APIs是亮数据开发的专门用于热门站点采集的接口,包括电商、社媒、搜索等,tiktok就是其中之一,既可以采集电商商品信息,也支持短视频评论、标题等公开数据。

用亮数据的好处在于它的接口配置了一整套网页解锁、IP代理服务,能处理各种爬虫限制,包括动态加载、人机验证、浏览器指纹等,非常适合作为智能体的数据采集接口,它还有MCP服务,相当的好用。

接下来是完整的CLI智能体搭建流程,不需要高超的Python代码技能,新手也能上手操作。

配置scraper APIs

首先,需要登录亮数据开发后台,在账户设置里新建你的API key,这个很重要,因为所有的采集功能都需要配置Key。

https://get.brightdata.com/webscra

然后找到Web Scrapers功能界面里的Tiktok采集接口,它有15个爬虫,涵盖了从短视频到商品的各种采集场景。

其中商品采集有4个爬虫,包括案商品url、分类页url、商品关键词、店铺url,每个爬虫都会对应一个接口。

比如说按商品url采集,你可以提交多个url或者直接提供csv表格,它就会直接采集商品信息,输出csv表格给到你,不需要任何其他操作。

采集到的字段多达50个,包括商品名称、描述、价格、颜色、尺寸等。

示例里提供了Python requests的采集代码,这是我们要用到的,只需按照它的规范就可以成功部署到智能体中,其他爬虫接口也都有示例代码。

上面代码返回的是用于存储数据的快照ID,你还需要从通过快照ID下载该数据,后台也提供了示例代码。

同样的你需要从分类页url、商品关键词、店铺url另外3个爬虫中找到Python接口代码,保存到本地备用。

获取DeepSeek V4接口

最近DeepSeek发布了V4版本,便宜且强大, 我这次用V4来分析商品数据,生成markdown报告。

在DeepSeek开发平台中找到Python接口代码,它是通过openai库来接入API的,代码很简单。

在Trae中开发CLI工具

将第1、2步的代码放到Trae中的py文件里,分为3个模块。

  • requests_data.py 负责请求下载数据获得快照id
  • dowload_snapshot_id.py 负责下载快照的数据集
  • deepseek_api.py 负责deepseek api接口,分析数据

然后通过code builder模式进行AI Coding开发,提示语如下:

制作一个CLI智能体工具,用于采集tiktok的商品数据。 支持用户直接通过商品url或者分类页url或者关键词或者店铺url采集到商品,并下载整理成结构化的csv表格给到用户。 支持通过deepseek api分析csv形成结构化商品分析报告md文档。 文件中有3个脚本供参考, requests_data.py 负责请求下载数据获得快照id, dowload_snapshot_id.py 负责下载快照的数据集, deepseek_api.py 是deepseek api接口,负责分析数据。 要求智能体CLI功能清晰、操作简单,没有错误

Trae会按要求编写代码,部署为CLI模式,实现的功能如下:

简单来说,这个CLI智能体可以干以下3件事:

1、提交需要采集的信息csv表格,一行代码拿到结果

不管是商品url,还是关键词,CLI工具会自动识别不同类型的输入,统一批量处理。

2、采集后直接DeepSeek分析,形成分析报告,或者单独提交已有的商品csv表格,也可以AI分析。

分析维度如下,你也可以自定义提示语。

# TikTok商品分析报告 ## 一、数据概览 - 采集时间 - 商品总数 - 数据字段说明 ## 二、品类分析 - 各品类商品数量分布 - 热门品类分析 ## 三、价格分析 - 价格区间分布 - 平均价格 - 价格与销量关系 ## 四、爆款商品分析 - 高销量商品TOP10 - 高评分商品TOP10 - 性价比分析 ## 五、店铺分析 - 热门店铺排行 - 店铺竞争力分析 ## 六、趋势洞察 - 市场趋势分析 - 选品建议

测试CLI智能体

打开命令行,输入:

tiktok_scraper.py -i input_sample.csv -o output.csv

这行代码功能是采集input_sample.csv中的商品信息,输出结果数据到output.csv中。

input_sample.csv格式如下:

采集过程如下:

最终得到结果数据:

针对采集到的商品数据让DeepSeek进行分析,形成分析报告。

python3 tiktok_scraper.py -i input_sample.csv --analyze

你会得到专业的TikTok商品报告。

在这里插入图片描述

这样咱们就实现一个专门用于采集和分析Tiktok商品数据的智能体,而且通过CLI实现一键搞定任务,非常便捷。

这里面主要用到Python、亮数据scraper APIs、DeepSeek V4,难点其实在于采集接口,这点用亮数据省了很多事,而且能保证稳定和安全。

个人测试案例,数据采集为极少量公开数据,均遵守法规约定。

下面可以免费试用scraper APIs,搭建一个小小的agent,挺好玩的

https://get.brightdata.com/webscra

http://www.jsqmd.com/news/1035556/

相关文章:

  • 2026 上新:孝感除甲醛公司 7 大排名(全民选票・客户真实口碑版) - 专注室内空气检测治理
  • 实操指南:亚马逊申报不符被稽查怎么处理? - 企服靠谱君
  • 2026年黄冈麻城门窗定制全屋解决方案深度选购指南 - 企业名录优选推荐
  • 一次充值差点毁账号,选对系统才能安心玩游
  • Django毕业设计-基于 Python+Django 的高校请假管理可视化系统的设计与实现 基于 Python+Django 的学生请假数据可(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 帝王绿出手怕亏?2026常州回收帝王绿翡翠商家盘点 - 名奢变现站
  • Swagger+ChatGPT+MCP:5分钟自动化生成API测试用例与报告
  • 【TEE从入门到精通及实战】23 Enclave密封存储与状态恢复:让机密在断电后依然安全
  • 武汉黄金回收怎么选?禹竞名奢汇凭国检认证稳居本地回收商家红榜头部 - 名奢变现站
  • 无人机航拍光伏语义分割数据集|新能源电站智能巡检、太阳能板区域提取深度学习标注资源
  • 文件上传架构深度解析:从分片上传到云存储的工程实践
  • 上海徐汇黄金回收怎么选?备案连锁门店汇总分享 - 逸程
  • 实力落地见真章|广州桥涵科技协作机器人贴补强胶片改造标杆案例
  • 2026开发者怎么选语音转写API?实测多款后只留这一款不踩雷
  • 2026江南旅行需要本地向导吗?靠谱向导挑选方法|苏杭沪4-5日环线旅游攻略 - 纯玩旅游攻略指南
  • 银河麒麟 V11服务器安装nginx教程、国产麒麟 V11安装nginx
  • 广州名表回收口碑榜单,实测无隐藏扣费优质渠道汇总 - 讯息早知道
  • 2026年深圳罗湖创业注册与财税服务优选指南:专业托管,高效启航 - 资讯快报
  • 结构体变量在STM32当中的运用
  • 别再被坑了!上海迪士尼33VIP怎么买?行家透露:找对正规服务商才是关键
  • 手办”小确幸“——关于热爱与连接的手办电商叙事
  • Ubuntu中root用户开启与权限管理:从sudo机制到安全实践
  • 玉林市空调维修/中央空调维修|本地避坑指南,满分五星平台|欧米到家首选 - 欧米到家
  • 2026年云南电脑组装批发与IT运维一站式服务商选型指南 - 优质企业观察收录
  • Qwen3.5-Omni:统一表征架构驱动的多模态原生大模型
  • Wand-Enhancer终极指南:5步解锁WeMod完整功能的简单教程
  • 垂直高度函数方法在液滴模拟中的创新与应用
  • 上海旧金饰变现完整流程,看完避开 90% 回收商家扣费陷阱 - 逸程
  • InnoDB索引结构深潜:B+Tree与回表机制的底层逻辑
  • 不用 NVIDIA 也能玩大模型,HIPify 加 SGLang 的低成本落地方案