当前位置: 首页 > news >正文

采用DrissionPage批量采集抖音视频

参考视频:https://www.bilibili.com/video/BV1nSRPYtEAU/?spm_id_from=333.337.search-card.all.click

效果展示(只实现了爬取视频,没有爬取图文):

image

具体代码:

# 导入自动化模块
from DrissionPage import ChromiumPage
import requests
import time
import osheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/142.0.0.0 Safari/537.36','referer': 'https://www.douyin.com/user/MS4wLjABAAAAczLgM1eXmTLadiZ_T7_VyrbKP0O79wR-OOMl-meVqgE?from_tab_name=main'
}# 处理视频数据的函数
def process_videos(video_list):for index in video_list:title = index['desc']video_id = index['aweme_id']video_url = index['video']['play_addr']['url_list'][0]# 清理标题中的非法字符clean_title = ''.join(c for c in title if c not in r'\/:*?"<>|')if not clean_title or clean_title.isspace():clean_title = "无标题"print(f"正在下载: {clean_title[:30]}... (ID: {video_id})")# 获取视频内容video_content = requests.get(url=video_url, headers=headers).content# 保存视频file_name = f'video/{clean_title}-{video_id}.mp4'with open(file_name, 'wb') as f:f.write(video_content)print(f"✓ 已保存: {file_name}")# 主程序
dp = ChromiumPage()
dp.listen.start('/aweme/post/')
dp.get('https://www.douyin.com/user/MS4wLjABAAAAczLgM1eXmTLadiZ_T7_VyrbKP0O79wR-OOMl-meVqgE?from_tab_name=main')# 创建保存视频的目录
os.makedirs('video', exist_ok=True)# 获取第一页数据
resp = dp.listen.wait()# 直接使用 resp.response.body,因为它已经是字典格式
json_data = resp.response.bodyif 'aweme_list' in json_data:video_list = json_data['aweme_list']process_videos(video_list)# 如果需要更多数据,滚动加载while json_data.get('has_more', 0) == 1:# 滚动到页面底部tab = dp.ele('css:.Rcc71LyU')dp.scroll.to_see(tab)time.sleep(2)# 获取新数据resp = dp.listen.wait(timeout=5)if resp:# 直接使用 body,不需要再解析json_data = resp.response.bodyif 'aweme_list' in json_data:video_list = json_data['aweme_list']process_videos(video_list)print("爬取完成!")

 

http://www.jsqmd.com/news/115298/

相关文章:

  • 使用toaster开源库实现警告toast样式
  • 直接上干货。这次咱们聊聊怎么用Simulink搞个能打的单相逆变器双环控制模型。重点说几个实操细节,保准你照着做就能出波形
  • Caddy服务器入门自动HTTPS的现代Web服务器
  • 2025最新深圳到丽江、大理、海口、三亚搬家公司排行榜,附搬家费用明细 - 物流人
  • SSM校外实习管理平台6tu82(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
  • Open-AutoGLM部署性能提升300%的秘密:你不可不知的5项调优技术
  • 深圳到北京、天津、石家庄、唐山搬家公司排行榜,附搬家费用明细 - 物流人
  • NMN如何选择?2025 NMN权威榜:抗衰力与成分透明度双维PK,十大品牌谁登顶? - 资讯焦点
  • Open-AutoGLM requirements.txt 配置秘籍(仅限内部流传的3种高效写法)
  • ELK日志分析平台从零搭建到生产实践
  • 伺服驱动器中DSP与FPGA高效协同架构解析
  • 2025年12月最新汇总:全球主流激光雕刻机品牌性能评分与选购指南 - 资讯焦点
  • 2025最新深圳到郑州、济南、长沙、西安搬家公司排行榜,附搬家费用参考 - 物流人
  • requirements.txt配置踩坑实录,99%新手都会忽略的5个关键包
  • android studio2025.2.2汉化重大bug(附解决方案)
  • 交换机.路由器.防火墙-技术提升【7.8】
  • Home-Assistant智能家居平台搭建与远程控制
  • 我发现流加密处理慢后来才知道用crypto流式分块API
  • 成都到常州、温州、徐州、绍兴搬家公司排行榜,附搬家费用明细 - 物流人
  • 光伏板清关.轮胎反倾销清关.床垫清关.高尔夫球车清关 - 资讯焦点
  • 【Open-AutoGLM酒店比价实战】:揭秘AI驱动的实时价格监控系统核心技术
  • UI新手别踩坑!从6个案例读懂B端后台管理系统首页设计逻辑
  • 【稀缺实战资料】Open-AutoGLM对接vLLM全流程配置细节首次公开
  • PE重包装袋品牌口碑榜:这十款备受好评,目前PE重包装袋推荐排行榜单解决方案与实力解析 - 品牌推荐师
  • AI自动化新突破:Open-AutoGLM赋能外卖自动下单(全链路解析)
  • 五大高铁广告服务商横向评比:谁更值得选?机场广告/户外LED广告/公交站台广告/户外农村墙体/电梯门贴广告高铁广告公司推荐排行 - 品牌推荐师
  • 【稀缺技术曝光】:Open-AutoGLM量化压缩与内存复用的底层实现原理
  • Open-AutoGLM模型获取困局,一文破解Hugging Face下载权限与认证问题
  • 禁止过分投入2:夏日大排档 /Love Too Easily 2 Summer Pocha Build.20586137(6.9G) 免安装中文版游戏资源分享及攻略教程
  • B端界面设计新趋势:后台管理系统首页,从“工具”到“效能入口”