影刀RPA新手教程_抖音数据监控实战关键词搜索视频数据采集与趋势追踪
影刀RPA新手教程:抖音数据监控实战——关键词搜索、视频数据采集与趋势追踪
影刀RPA抖音数据监控是内容运营的利器。手动刷抖音找竞品数据太慢,用影刀自动采集关键词下的视频数据,追踪播放量、点赞数、评论数变化,找出爆款内容规律。
作者:林焱 | 影刀RPA实操系列
能采集什么数据
抖音网页端(douyin.com)可以采集的数据:
- 搜索结果数据:关键词搜索后的视频列表,包含视频标题、作者、播放量、点赞数、发布时间
- 达人主页数据:粉丝数、获赞总数、作品数、最新视频列表
- 热点榜单:实时热点榜、挑战榜
- 评论数据:指定视频下的评论内容(需要处理无限滚动)
注意:视频下载和私信相关功能不在讨论范围内。
准备工作
- 打开 douyin.com(网页端)
- 登录抖音账号(没登录只能看部分数据)
- 影刀新建流程,浏览器选择「系统Chrome」或影刀内置浏览器
拼多多店群自动化报活动上架!
第一步:关键词搜索采集
1. 打开 https://www.douyin.com/ 2. 点击搜索框 3. 输入关键词:target_keyword 4. 按回车搜索 5. 等待搜索结果加载(等待视频卡片元素出现) 6. 点击「视频」筛选Tab搜索结果页的元素结构:
# 视频卡片容器(CSS选择器) .search-result-card # 视频标题 .title # 作者名称 .author-name # 播放量 .play-count # 点赞数(通常显示在卡片底部) .like-count第二步:采集视频列表数据
# 用影刀「获取所有元素」指令获取所有视频卡片cards=获取所有元素(选择器=".search-result-card")results=[]forcardincards:# 获取各字段文本title=获取子元素文本(card,".title")author=获取子元素文本(card,".author-name")play_count_str=获取子元素文本(card,".play-count")# 处理播放量(抖音显示为"1.2万"格式,需要转换)play_count=convert_count(play_count_str)results.append({'标题':title,'作者':author,'播放量':play_count,'采集时间':datetime.now().strftime("%Y-%m-%d %H:%M")})数量格式转换函数
defconvert_count(count_str):""" 将抖音显示的数量格式转为整数 "1.2万" → 12000 "3.5亿" → 350000000 """count_str=str(count_str).strip()if'亿'incount_str:returnint(float(count_str.replace('亿',''))*100000000)elif'万'incount_str:returnint(float(count_str.replace('万',''))*10000)else:try:returnint(count_str.replace(',',''))except:return0第三步:翻页采集更多数据
抖音搜索结果是无限滚动加载,不是点击"下一页"按钮。
current_count = 0 target_count = 100 # 目标采集100条 while current_count < target_count: # 获取当前页面上的视频卡片数量 card_count = 获取元素数量(".search-result-card") if card_count >= target_count: break # 滚动到页面底部触发加载 滚动到底部() # 等待新内容加载 等待元素数量增加(超时5秒) new_count = 获取元素数量(".search-result-card") # 如果数量没有增加,说明没有更多内容了 if new_count == current_count: break current_count = new_count 随机等待(1000, 2000)第四步:达人主页数据采集
1. 从视频卡片点击作者头像 / 直接访问达人主页URL URL格式:https://www.douyin.com/user/{sec_uid} 2. 等待主页加载完成 3. 采集基础数据: 粉丝数 = 获取元素文本(".fans-count") 获赞总数 = 获取元素文本(".total-like")  作品数 = 获取元素文本(".work-count") 4. 采集最新视频列表(前15条): 遍历 .video-item 元素 每条记录:视频标题、播放量、发布时间第五步:数据保存与趋势追踪
每次采集保存时,在 Excel 中加上采集时间:
| 关键词 | 视频标题 | 作者 | 播放量 | 点赞数 | 采集时间 |
对同一个视频追踪多次采集,可以用 pandas 做趋势分析:
# 同一视频在不同时间点的播放量变化df_filtered=df[df['视频标题']==target_title].sort_values('采集时间')df_filtered['播放量增长']=df_filtered['播放量'].diff()TEMU店群矩阵自动化运营核价报活动
反爬与稳定性处理
问题一:频繁刷新弹出验证码
处理策略:每采集15-20个视频休眠30-60秒;不要在同一个IP上高频访问。
问题二:元素选择器变了
抖音前端代码经常更新,选择器会变。推荐用稳定的属性(如data-testid属性)而不是 class 名,或者用 XPath 定位文本内容。
问题三:登录状态过期
在流程开始时检查是否已登录 检查:是否存在用户头像元素 如果不存在:触发登录子流程(扫码或账密登录)实际使用场景
- 每日追踪竞品账号更新频率和数据表现
- 监控行业关键词热度,找爆款选题
- 分析什么类型的视频播放量高(按标题关键词分类统计)
内容标签:影刀RPA / 抖音数据采集 / 内容监控 / 舆情追踪 / 数据分析
作者:林焱
本文是「影刀RPA从零到实战」系列文章之一,持续更新实操技巧与避坑经验。
