当前位置：首页 > news >正文

Python实战：绕过B站人机校验与验证码，实现视频下载自动化

news 2026/5/12 21:53:02

1. B站视频下载的技术挑战

最近在做一个B站视频批量下载的项目时，发现平台的反爬机制越来越严格。每次批量下载十几个视频后，就会弹出人机校验页面，要求输入验证码。更麻烦的是，有时候还会遇到视频突然下架的情况。

B站的视频下载主要面临两个技术难点：一是视频资源地址的获取，二是反爬机制的突破。视频资源分为两种格式，老式的FLV格式和新式的DASH格式。FLV格式的视频和音频是合并的，而DASH格式则是音视频分离的，需要分别下载后再合并。

我测试过多个视频下载工具，发现大多数都无法稳定绕过B站的人机校验。有些工具刚开始能用，但用几次就被封了IP。经过反复尝试，终于摸索出一套相对稳定的解决方案，下面分享具体实现方法。

2. 视频地址解析实战

2.1 接口分析与请求构造

B站的视频接口返回的数据结构比较复杂，首先需要通过浏览器开发者工具分析网络请求。在视频播放页按F12打开控制台，搜索"playinfo"关键词，可以找到核心的接口响应数据。

关键代码示例：

import requests def get_video_info(bvid): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', 'Referer': f'https://www.bilibili.com/video/{bvid}' } api_url = f'https://api.bilibili.com/x/player/playurl?bvid={bvid}&qn=80' response = requests.get(api_url, headers=headers) return response.json()

这个接口返回的数据中，data字段包含视频的详细信息。对于DASH格式的视频，音视频流是分开的：

视频流地址：playinfo['data']['dash']['video']
音频流地址：playinfo['data']['dash']['audio']

而对于老式FLV格式，视频地址在playinfo['data']['durl']中。实际开发中需要先判断视频格式，再分别处理。

2.2 清晰度选择与参数解析

B站支持多种清晰度，对应的quality值如下：

1080P60帧：116
1080P：80
720P：64
480P：32
360P：16

在请求接口时，可以通过qn参数指定想要的清晰度。但要注意，不是所有视频都支持最高清晰度，需要检查接口返回的accept_quality列表。

3. 突破人机校验机制

3.1 验证码触发条件

当下载请求频率过高时，B站会返回人机校验页面。我测试发现，连续请求10个以上视频就很可能触发验证。验证码有两种形式：

普通字符数字验证码
滑块验证码（较少出现）

关键是要识别出何时触发了验证，以及如何自动处理。通过分析网络请求，发现验证码相关接口是：

获取验证码：https://sec.bilibili.com/captcha/get
提交验证：https://sec.bilibili.com/captcha/check

3.2 验证码自动识别方案

对于字符验证码，可以采用OCR技术识别。这里推荐使用百度OCR API，准确率较高且稳定。实现代码如下：

from aip import AipOcr def recognize_captcha(image_base64): """使用百度OCR识别验证码""" APP_ID = '你的APP_ID' API_KEY = '你的API_KEY' SECRET_KEY = '你的SECRET_KEY' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) result = client.basicGeneral(image_base64) return result['words_result'][0]['words'] if result['words_result'] else ''

获取到验证码后，需要连同token一起提交到校验接口：

def submit_captcha(token, code): url = "https://sec.bilibili.com/captcha/check" payload = f'token={token}&code={code}' headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Referer': 'https://www.bilibili.com/' } response = requests.post(url, headers=headers, data=payload) return response.json()

3.3 请求频率控制策略

为了避免频繁触发验证码，需要控制请求频率。我的经验是：

单个IP每分钟不超过5次请求
每次下载间隔随机2-5秒
使用代理IP轮询

可以使用time.sleep()添加随机延迟：

import time import random def random_delay(): time.sleep(random.uniform(2, 5))

4. 视频下载与合并

4.1 分片下载优化

B站的视频经常是分片的，特别是高清视频。下载时需要先发送OPTIONS预检请求，再发送GET请求获取数据：

def download_chunk(url, headers): session = requests.Session() session.options(url, headers=headers) response = session.get(url, headers=headers) return response.content

4.2 使用FFmpeg合并音视频

对于DASH格式的视频，下载完音视频后需要用FFmpeg合并。推荐使用subprocess调用FFmpeg：

import subprocess def merge_av(video_path, audio_path, output_path): cmd = [ 'ffmpeg', '-i', video_path, '-i', audio_path, '-c:v', 'copy', '-c:a', 'copy', output_path ] subprocess.run(cmd, check=True)

4.3 断点续传实现

对于大文件下载，建议实现断点续传功能。可以通过检查本地文件大小，在请求时添加Range头：

def download_with_resume(url, file_path, headers): if os.path.exists(file_path): downloaded = os.path.getsize(file_path) headers['Range'] = f'bytes={downloaded}-' else: downloaded = 0 response = requests.get(url, headers=headers, stream=True) mode = 'ab' if downloaded else 'wb' with open(file_path, mode) as f: for chunk in response.iter_content(1024): f.write(chunk)