当前位置：首页 > news >正文

b站视频全自动化爬虫，采用抓包，基于selenium（学习使用）

news 2026/7/5 3:25:48

首先导入所需要的库

import requests from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.edge.service import Service from selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Options import time import re import requests import json import os

然后进行初始化抓包、驱动配置等（这里采用的是谷歌浏览器）

#初始化 chrome_options = Options() chrome_options.add_argument('--disable-blink-features=AutomationControlled') chrome_options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.7632.160 Safari/537.36') chrome_options.set_capability('goog:loggingPrefs', {'performance': 'ALL'}) service = Service(executable_path=r"D:\aitems\ktv\chromedriver.exe") browser = webdriver.Chrome(service=service,options=chrome_options) browser.execute_cdp_cmd('Network.enable',{})

然后我们采用selenium找到我们需要的网页，这里我采用的是自己输入搜索，利用xpath等检索搜索到的第一个视频

name = input() search_box = browser.find_element(By.XPATH, '//*[@id="nav-searchform"]/div[1]/input') search_box.send_keys(name) search_button = browser.find_element(By.XPATH,'//*[@id="nav-searchform"]/div[2]') search_button.click() windows = browser.window_handles browser.switch_to.window(windows[-1]) first_video = browser.find_element(By.CSS_SELECTOR, ".bili-video-card:first-child") first_video.click() windows = browser.window_handles browser.switch_to.window(windows[-1]) video_content = browser.find_element(By.XPATH, '/html/head/meta[14]') video_url = video_content.get_attribute('content') print("视频链接:",video_url)

这里我们把视频的链接找到之后，然后进行抓包来寻找视频下载的链接

#抓网络包 logs = browser.get_log('performance') print(f"7. 捕获到 {len(logs)} 个性能日志") count = 0 for entry in logs: # 第一步：解析日志条目（JSON字符串转Python字典） message = json.loads(entry['message']) # 第二步：筛选出"网络响应已接收"类型的日志 if message['message']['method'] == 'Network.responseReceived': request_id = message['message']['params']['requestId'] # 第三步：提取响应的核心信息 response = message['message']['params']['response'] url = response['url'] # 第四步：筛选我们关心的视频相关API请求 if 'bilibili.com' in url: count += 1 # print(f"8. 找到第{count}个B站请求：{url}") # 第五步：通过requestId获取完整的响应体内容 try: res = browser.execute_cdp_cmd('Network.getResponseBody', {'requestId': request_id}) # 第六步：处理并保存响应体 if res.get('body'): body = res['body'] # print(f"9. 响应体长度：{len(body)}") print(f"10. 完整响应体内容：\n{body}") # with open('d:\\aitems\\ktv\\backend\\first_response.txt', 'w', encoding='utf-8') as f: # f.write(body) # print("\n11. 响应体已保存到 first_response.txt") break else: print() # print(f"9. 响应体为空，继续查找...") except Exception as e: # print(f"9. 获取响应体失败：{str(e)}，继续查找...") continue

在我们进行完抓包下载检索之后，得到了视频和音频的下载链接，由于b站的视频音频是分开来的，我们将他们进行合并。

video_baseurl = re.findall(r'"video":\[\{"id":.*?,"baseUrl"\s*:\s*"([^"]+)"',body) audio_baseurl = re.findall(r'"audio":\[\{"id":.*?,"baseUrl"\s*:\s*"([^"]+)"',body) print("视频url：",video_baseurl) print("音频url：",audio_baseurl) headers = { "User-Agent" : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36', 'Referer' : video_url, } video = requests.get(video_baseurl[0], headers=headers) audio = requests.get(audio_baseurl[0], headers=headers) with open('video.mp4', 'wb') as f: f.write(video.content) print('视频下载成功') with open('audio.mp3', 'wb') as f: f.write(audio.content) print('音频下载成功') code = 'ffmpeg -i video.mp4 -i audio.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -y final_video.mp4' os.system(code)

到此，一个自动化视频搜索下载流程就完成了

比较关键的地方是寻找我们需要抓包和爬取的具体内容的位置，也就是视频和音频的下载链接在哪里。因为b站有反爬机制，所以我们采用抓包的方式进行爬虫。

如图

我们对"video"进行搜索就很容易可以找到我们需要的链接，同样的，音频是"audio"。

然后我们对此进行抓包和利用正则表达式寻找内容即可。

查看全文

http://www.jsqmd.com/news/449578/