当前位置: 首页 > news >正文

【Python】某站音视频爬取(转载)

import pprint
import requests
import re
import jsonsession = requests.session()
url = '你需要爬取的音视频网址'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.37',
"Referer": "https://www.bilibili.com"}
resp = session.get(url,headers=headers)
print(resp.text)title = re.findall(r'<title>(.*?)_哔哩哔哩_bilibili',resp.text)[0]
play_info = re.findall(r'<script>window.__playinfo__=(.*?)</script>',resp.text)[0]'''print(title)
print(play_info,type(play_info)) '''
json_data = json.loads(play_info)
pprint.pprint(json_data) #格式化输出,便于观看
audio_url = json_data['data']['dash']['audio'][0]['backupUrl'][0] #音频地址 [0]清晰度最高
video_url = json_data['data']['dash']['video'][0]['backupUrl'][0] #视频地址
audio_content = session.get(audio_url,headers=headers).content #音频二进制内容
video_content = session.get(video_url,headers=headers).content #视频二进制内容
with open(r'E:\常用文件夹\某站爬虫\【音频】'+title+'.mp3','wb') as f:f.write(audio_content)
with open(r'E:\常用文件夹\某站爬虫\【视频】'+title+'.mp4','wb') as f:f.write(video_content)

 

http://www.jsqmd.com/news/27952/

相关文章:

  • 代码大全2阅读感悟
  • RT-Thread之消息队列使用示例
  • STM32之GPIO输出
  • 神秘数据结构手法之区间 LIS
  • 软考九
  • [该退役了]
  • 逆向基础--汇编语言介绍(003)
  • 文档抽取技术的实现原理及其在法律行业的应用价值分析
  • 【算法导论】2分治法
  • c++写得多不如写得少,同样的逻辑写的多报错逆天
  • 整理数学数据结构
  • viewerjs+vue3 using typescript
  • 题解:B4207 [常州市赛 2021] 战士
  • 最小二乘问题详解7:正则化最小二乘
  • 什么是重组蛋白?
  • 代码大全2{3}
  • work3
  • 25.10.31
  • 关于计数
  • 游记2
  • WebRTC实时音视频通信核心原理
  • Python高阶和匿名函数 _ 脱了马甲也要认识
  • 第11天(中等题 滑动窗口)
  • 麒麟 V10系统中离线安装python的setuptools和pip,并使用python代码查询达梦数据库,并上传文件到minio
  • 如何选择陶瓷放电管
  • 10.31每日总结
  • 对称密钥算法 非对称密钥算法 Hash函数 公钥和私钥在网络安全中的应用流程超超超详细,清楚,简单!!!
  • 读《代码大全2》读后感3
  • revit api楼梯创建
  • 《代码大全2》初读有感