当前位置：首页 > news >正文

B站评论爬虫实战指南：从零开始获取完整评论数据

news 2026/4/28 22:03:00

B站评论爬虫实战指南：从零开始获取完整评论数据

【免费下载链接】BilibiliCommentScraperB站视频评论爬虫 Bilibili完整爬取评论数据，包括一级评论、二级评论、昵称、用户ID、发布时间、点赞数项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper

你是否曾经想要分析B站热门视频的评论区，却发现只能看到最前面的几十条评论？或者需要批量处理多个视频的评论数据，却苦于没有合适的工具？今天，我将为你介绍一款强大的B站评论爬虫工具——BilibiliCommentScraper，它能帮你彻底解决这些数据采集难题！

这款工具基于Selenium模拟真实浏览器操作，能够完整爬取B站视频的一级评论和二级评论，包括用户昵称、用户ID、发布时间、点赞数等关键字段。更重要的是，它支持断点续爬和批量处理，让你可以轻松获取海量评论数据进行分析。

为什么你需要专业的B站评论爬虫工具？

在开始之前，让我们先看看为什么传统方法难以满足B站评论数据采集的需求：

传统方法的局限性：

动态加载限制：B站评论区采用动态加载技术，手动滚动只能看到部分评论
数据不完整：多数工具无法获取二级评论（回复的回复）
效率低下：手动复制粘贴面对成千上万条评论几乎不可能
反爬机制：B站的频率限制和验证码让简单爬虫难以持续工作

BilibiliCommentScraper的解决方案：

完整数据采集：同时获取一级和二级评论的完整数据
智能断点续爬：支持随时暂停和继续，无需担心数据丢失
批量处理能力：一次性处理多个视频的评论采集任务
自动化登录：只需一次登录，后续自动使用cookies

快速上手：5步开始你的B站评论采集之旅

第一步：环境准备与安装

确保你的系统已安装Python 3.8或更高版本，然后安装必要的依赖库：

pip install selenium beautifulsoup4 webdriver-manager pandas

第二步：配置视频列表

在项目目录下创建或编辑video_list.txt文件，每行放一个B站视频URL。支持AV号和BV号格式：

https://www.bilibili.com/video/BV17M41117eg https://www.bilibili.com/video/BV1QF411q73H https://www.bilibili.com/video/BV1c14y147g6

第三步：运行爬虫程序

python Bilicomment.py

第四步：完成登录验证

首次运行时，程序会提示你登录B站。只需扫码登录一次，cookies会自动保存到cookies.pkl文件中，后续运行无需重复登录。

第五步：查看采集结果

程序会自动爬取所有视频的评论，每个视频生成一个独立的CSV文件，文件名为视频ID，包含以下完整字段：

字段名称	说明
一级评论计数	一级评论的序号
隶属关系	标识评论层级（一级/二级）
被评论者昵称	被回复用户的昵称
被评论者ID	被回复用户的ID
评论者昵称	评论者的昵称
评论者用户ID	评论者的用户ID
评论内容	评论的具体内容
发布时间	评论发布的时间
点赞数	评论获得的点赞数

核心功能深度解析

智能断点续爬机制

这是BilibiliCommentScraper最实用的功能之一。程序通过progress.txt文件记录爬取进度，即使中途中断，也能从上次停止的地方继续。

进度文件示例：

{"video_count": 1, "first_comment_index": 15, "sub_page": 114, "write_parent": 1}

进度含义：

video_count：已完成爬取的视频数量
first_comment_index：当前视频中已完成的一级评论索引
sub_page：当前一级评论的二级评论页数
write_parent：当前一级评论是否已写入文件

使用技巧：

想要重新开始爬取？只需删除progress.txt文件
想要跳过某个视频？直接将video_count加1
网络中断后恢复？程序会自动从上次进度继续

批量处理与错误处理

对于需要处理多个视频的用户，批量处理功能可以大幅提升效率：

批量处理流程：

将所有视频URL放入video_list.txt
程序按顺序自动处理每个视频
每个视频生成独立的CSV文件
错误视频记录到video_errorlist.txt

错误处理机制：

网络错误自动重试
页面崩溃自动重启浏览器
失败视频单独记录，不影响其他视频处理

数据采集结果展示

BilibiliCommentScraper采集的评论数据示例，展示了完整的字段结构和层级关系

从上面的示例图片可以看到，采集的数据包含：

完整的评论层级：清晰区分一级评论和二级评论
详细的用户信息：包含昵称和用户ID
精确的时间戳：记录每条评论的发布时间
互动数据：点赞数反映评论的热度

实战应用场景

学术研究：社交媒体分析

研究人员可以利用这个工具进行：

情感分析：分析用户对特定话题的情感倾向
话题演变：追踪热门话题的发展脉络
用户行为研究：分析不同用户群体的评论模式
传播效果评估：研究评论数据与视频热度的相关性

示例分析代码：

import pandas as pd # 读取采集的数据 df = pd.read_csv('BV1xx411c7mD_评论数据.csv', encoding='utf-8') # 基础统计分析 total_comments = len(df) first_level = df[df['隶属关系'] == '一级评论'].shape[0] second_level = df[df['隶属关系'] == '二级评论'].shape[0] print(f"总评论数: {total_comments}") print(f"一级评论数: {first_level}") print(f"二级评论数: {second_level}") # 点赞数分析 top_comments = df.nlargest(5, '点赞数') print("点赞数前五的评论:") for idx, row in top_comments.iterrows(): print(f" {row['评论者昵称']}: {row['评论内容'][:50]}... (点赞: {row['点赞数']})")

内容创作：用户反馈分析

UP主和内容创作者可以通过分析评论数据：

了解观众偏好：发现最受欢迎的内容类型
改进内容策略：根据用户反馈调整创作方向
优化发布时间：分析评论活跃时间段
识别核心粉丝：发现高互动用户群体

市场研究：竞品分析

品牌和营销团队可以：

监控舆情：及时发现负面评论和潜在危机
分析用户需求：了解用户对产品的真实看法
跟踪市场趋势：分析行业动态和用户偏好变化
竞品对比：对比不同产品的用户反馈差异

高级配置与优化技巧

性能调优参数

在Bilicomment.py中，你可以调整以下参数来优化爬取性能：

# 控制滚动次数，影响爬取的一级评论数量 MAX_SCROLL_COUNT = 45 # 默认45次，预计最多爬取920条一级评论 # 设置最大二级评论页数 max_sub_pages = 150 # 默认150页，设为None表示无限制 # 添加随机延时，避免触发反爬机制 import random time.sleep(random.uniform(1, 5)) # 随机生成1到5秒之间的延时

内存管理建议

对于评论量巨大的视频（10万+），建议：

减少滚动次数：调整MAX_SCROLL_COUNT参数
增加延时：避免频繁请求触发反爬
分批处理：先爬取部分数据再继续
定期清理缓存：删除Selenium产生的临时文件

网络优化策略

使用稳定网络：避免频繁的网络切换
设置合理延时：根据网络状况调整延时时间
监控程序状态：定期检查控制台输出
备份进度文件：重要任务前备份progress.txt

常见问题与解决方案

Q: 爬取的数据比B站显示的评论数少怎么办？

A: 这是正常现象！B站存在评论数虚标，部分评论可能被隐藏或删除。只要你在网页中手动滚动到底部看到的最后几条评论，与爬取数据的最后几条相符，就说明所有可见评论都已完整爬取。

Q: 用Excel打开CSV文件出现乱码？

A: CSV文件使用UTF-8编码。如果Excel显示乱码，可以：

使用专业的文本编辑器（如VS Code、Sublime Text）打开
在Excel中选择"数据"→"从文本/CSV"导入，选择UTF-8编码
使用Python的pandas库进行处理和分析

Q: 爬取热门视频时程序卡住或崩溃？

A: 对于评论量巨大的视频，建议：

修改代码中的MAX_SCROLL_COUNT参数，减少滚动次数
增加延时时间，避免触发反爬机制
使用随机延时：time.sleep(random.uniform(1, 5))
分批爬取，先爬取部分数据再继续

Q: 如何自定义爬取字段？

A: 你可以在代码中修改数据提取逻辑，添加或删除需要的字段。主要修改位置在评论数据解析部分，根据HTML结构提取相应的信息。

进阶应用：数据分析与可视化

基础数据分析

获取数据后，你可以进行多种分析：

import pandas as pd import matplotlib.pyplot as plt # 读取数据 df = pd.read_csv('BV1xx411c7mD_评论数据.csv', encoding='utf-8') # 时间序列分析 df['发布时间'] = pd.to_datetime(df['发布时间']) hourly_comments = df['发布时间'].dt.hour.value_counts().sort_index() # 绘制评论时间分布图 plt.figure(figsize=(12, 6)) hourly_comments.plot(kind='bar', color='skyblue') plt.title('评论时间分布（按小时）') plt.xlabel('小时') plt.ylabel('评论数量') plt.grid(True, alpha=0.3) plt.show() # 用户活跃度分析 user_activity = df['评论者昵称'].value_counts().head(10) print("最活跃的前10位用户：") print(user_activity)

情感分析示例

结合文本分析工具，可以进行情感分析：

from textblob import TextBlob # 简单的英文情感分析示例 def analyze_sentiment(text): analysis = TextBlob(text) if analysis.sentiment.polarity > 0: return '正面' elif analysis.sentiment.polarity < 0: return '负面' else: return '中性' # 应用情感分析（需要将评论翻译为英文或使用中文情感分析库） # df['情感倾向'] = df['评论内容'].apply(analyze_sentiment)

安全与合规使用建议

合法合规使用

遵守网站规则：尊重B站的使用条款和服务协议
合理使用频率：避免过度频繁的请求
尊重用户隐私：仅用于合法合规的分析目的
注明数据来源：在研究成果中注明数据来源

数据安全存储

加密敏感数据：对包含个人信息的文件进行加密
定期备份：定期备份采集的数据和进度文件
安全删除：不再需要的数据进行安全删除
访问控制：限制对数据的访问权限

开始你的B站评论数据分析之旅

现在你已经了解了BilibiliCommentScraper的强大功能和实用技巧。无论你是学术研究者、内容创作者、市场分析师，还是数据科学爱好者，这款工具都能为你提供高质量的B站评论数据。

立即开始使用：

克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper.git cd BilibiliCommentScraper

安装依赖：

pip install selenium beautifulsoup4 webdriver-manager pandas

配置视频列表：编辑video_list.txt文件，添加你要分析的视频URL
运行爬虫：

python Bilicomment.py

分析数据：使用Python或你喜欢的工具分析采集的数据

参与贡献

如果你在使用过程中发现了bug，或者有改进建议，欢迎参与项目贡献：

提交issue报告问题
提交pull request贡献代码
分享你的使用经验和案例

下一步行动建议

从小规模开始：先尝试爬取1-2个视频的评论
逐步扩展：熟悉工具后，再处理大批量数据
结合分析工具：将采集的数据与数据分析工具结合
分享成果：将你的分析结果和经验分享给社区

BilibiliCommentScraper是一个持续维护的开源项目，我们会根据用户反馈不断改进和优化功能。如果你觉得这个工具对你有帮助，欢迎给项目点个star，这是对开发者最好的支持！

记住，在数据驱动的时代，掌握数据就是掌握先机。现在就开始使用BilibiliCommentScraper，挖掘B站评论区隐藏的宝贵信息，为你的研究、创作或分析工作提供强有力的数据支持！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/715907/

VxWorks6.9 SMP性能调优笔记：避免多核任务调度中的‘伪并发’与锁竞争

GESP2025年6月认证C++五级( 第一部分选择题（9-15））

20260428 紫题训练

3步掌握Bilibili评论数据采集：从零到精通的完整指南

太原风电设备运输

[笔记] abc454_e LRUD Moving

我发现了一个很好用的 AI 编程 Skill：/grill-me

向量引擎、GPT Image 2、deepseek v4、api、key 全都讲明白了：这届AI开发，真不是只会调用就够了

不止于T+0：用通达信自定义公式，打造你的手机短线交易‘驾驶舱’

Rocky Linux 9上配置Chrony时间同步的保姆级教程（含阿里云、腾讯云NTP源）

给硬件新手的LPDDR4上电初始化避坑指南：从Vdd上电顺序到CKE使能的关键时序

多商户电商系统

League Akari 终极指南：快速掌握英雄联盟本地化效率工具

AI辅助下基于ArcGIS Pro的SWAT模型全流程高效建模实践与深度进阶应用

MCP插件报错无法复现？别再盲目重启！用VS Code内置Tracing + MCP Protocol Inspector抓取完整通信链路（含HTTP/2帧级日志解析）

洛谷 B3622：枚举子集（递归实现指数型枚举）← DFS

国内开源Claw类智能体

告别僵硬抓取：聊聊软体机器人手在康复训练和精密装配中的那些潜力应用

StarRailCopilot深度解析：如何用模块化架构实现崩坏星穹铁道全流程自动化

UE5数字孪生入门：用Cesium for Unreal加载本地高精度DEM，快速构建城市级三维地形基底

低查重AI写教材指南：精选工具助力，3天完成40万字教材产出！

Android系统升级变快了？聊聊GKI和KMI背后那些对开发者实实在在的影响

【笔记】asp.net 中，为什么第二次压测的单核性能是第一次压测的 3.2 倍

OpCore Simplify：如何用4个步骤完成黑苹果EFI自动化配置

redis的快速使用

Python PEP 263 深入解析：源文件编码那些事

智能硬件监控新范式：LibreHardwareMonitor的架构解析与实战指南

别再只调sklearn默认参数了！SVR、MLP、RF回归模型实战调参避坑指南

如何快速构建黑苹果EFI：OpCore Simplify的终极简化指南

保姆级教程：在Deepin/UOS上手动打包最新版QQ为deb安装包（附字体乱码修复）