当前位置：首页 > news >正文

[数据采集实战] 用Python与BeautifulSoup解析豆瓣电影Top250榜单

news 2026/5/12 0:20:02

1. 为什么选择豆瓣电影Top250作为爬虫入门项目

豆瓣电影Top250榜单可以说是最适合新手入门的爬虫实战项目之一。我自己带过不少数据分析新人，发现这个案例有三大不可替代的优势：数据质量高、页面结构稳定、实战价值强。榜单包含电影名称、评分、评价人数等结构化数据，每部电影还有导演、主演、类型等扩展信息，非常适合练习多维度数据采集。

记得我第一次写爬虫时，找的练习网站经常改版，刚写好的代码过两周就失效。但豆瓣这个榜单的HTML结构已经稳定保持了五六年，我2018年写的爬虫脚本现在还能正常运行。对于初学者来说，这种稳定性意味着你可以专注学习爬虫核心逻辑，而不是整天追着网站改版跑。

实际操作中你会发现，榜单页面虽然结构简单，但藏着不少典型的数据清洗场景。比如中英文片名并存的情况，国产电影和引进电影的信息结构差异，这些"小坑"正好能锻炼真实工作中的数据处理能力。我当年就是因为处理好了这些细节，才在面试时用一个豆瓣爬虫项目拿到了第一份数据分析工作。

2. 环境准备与工具选择

2.1 Python环境配置

推荐使用Python 3.7+版本，与原始文章不同，我们现在已经完全不需要考虑Python 2的兼容问题。安装时记得勾选"Add Python to PATH"，这样可以直接在命令行调用python命令。验证安装是否成功：

python --version pip --version

2.2 必备库安装

除了BeautifulSoup4，我们还需要几个辅助库：

pip install beautifulsoup4 requests lxml pandas

这里解释下各库的作用：

requests：比urllib更人性化的HTTP库，我实测访问豆瓣的成功率更高
lxml：BeautifulSoup的解析器，比内置的html.parser速度更快
pandas：最后保存数据时会用到，处理表格数据特别方便

注意：豆瓣有基本的反爬机制，建议在代码中添加headers模拟浏览器访问，后面会具体演示。

3. 页面URL规律分析

3.1 榜单分页机制

打开豆瓣电影Top250页面，仔细观察地址栏会发现分页规律确实如原始文章所说：

第一页：https://movie.douban.com/top250?start=0&filter= 第二页：https://movie.douban.com/top250?start=25&filter= ... 第十页：https://movie.douban.com/top250?start=225&filter=

但这里有个细节改进点：原始文章用urljoin拼接URL，其实用f-string格式化字符串更直观：

base_url = "https://movie.douban.com/top250" page_url = f"{base_url}?start={(page_num-1)*25}&filter="

3.2 反爬策略应对

现在豆瓣会对频繁请求进行限制，我们需要：

添加User-Agent头信息
控制请求频率（每页间隔2-3秒）
使用try-except处理异常请求

这是我常用的headers配置：

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' }

4. 数据解析实战技巧

4.1 HTML结构定位

用Chrome开发者工具检查页面，会发现每部电影信息都在<div class="item">标签内。相比原始文章直接找span标签，更好的做法是先定位电影条目，再提取内部元素：

movies = soup.find_all('div', class_='item') for movie in movies: title = movie.find('span', class_='title').text

4.2 处理多语言片名

这是本项目最考验数据处理能力的地方。实际情况比原始文章描述的更复杂：

纯中文电影：只有一个<span class="title">
外语电影：有中文译名和英文原名两个title
少数情况：港台译名与大陆译名并存

我的解决方案是：

titles = movie.find_all('span', class_='title') if len(titles) == 2: chinese_title = titles[0].text.replace('\xa0', ' ') english_title = titles[1].text.replace('\xa0/\xa0', '') else: chinese_title = titles[0].text english_title = ''

这里用replace('\xa0', ' ')处理了HTML中的特殊空格字符，这是原始文章没提到的细节。

4.3 提取其他关键信息

除了电影名称，我们还可以获取更多有用数据：

rating = movie.find('span', class_='rating_num').text people = movie.find('div', class_='star').find_all('span')[-1].text[:-3] quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''

特别注意评价人数的提取：[:-3]是为了去掉"人评价"中的汉字字符。

5. 数据存储与优化

5.1 结构化存储方案

原始文章只提到保存到文件，我们可以做得更专业：

import pandas as pd data = [] for movie in movies: # ...提取各字段代码... data.append({ '排名': index, '中文名': chinese_title, '英文名': english_title, '评分': rating, '评价人数': people, '短评': quote }) df = pd.DataFrame(data) df.to_excel('douban_top250.xlsx', index=False)

5.2 异常处理机制

完整的爬虫应该包含这些容错处理：

try: response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() soup = BeautifulSoup(response.text, 'lxml') except requests.exceptions.RequestException as e: print(f"请求失败: {e}") continue except Exception as e: print(f"解析错误: {e}") continue

6. 完整代码实现

结合所有优化点，这是我在生产环境使用的增强版代码：

import requests from bs4 import BeautifulSoup import pandas as pd import time headers = { 'User-Agent': 'Mozilla/5.0...' } all_data = [] for page in range(10): url = f'https://movie.douban.com/top250?start={page*25}' try: response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'lxml') for item in soup.find_all('div', class_='item'): # 详细解析逻辑... all_data.append(movie_data) time.sleep(2.5) except Exception as e: print(f'第{page+1}页抓取失败:', e) pd.DataFrame(all_data).to_excel('douban_top250_full.xlsx', index=False)

7. 常见问题与解决方案

7.1 请求被拒绝怎么办

如果遇到403错误，可以尝试：

更换User-Agent
添加Referer头信息
使用代理IP（需注意合规性）

7.2 数据错位问题

当某些字段缺失时，可能导致DataFrame列错位。解决方案：

# 在data.append前确保所有字段都有默认值 movie_data.setdefault('quote', '')

7.3 增量爬取策略

如果需要定期更新数据，可以：

记录最后爬取的时间戳
比较现有数据与新增评价数
只抓取评分变化超过阈值的数据

这个项目最让我有成就感的是，五年前用这个爬虫抓取的数据，现在还能用来分析电影市场的变化趋势。最近我发现一个有趣的现象：Top250中超过8.5分的电影，其评价人数与评分呈现明显的对数关系，这或许能帮助我们发现哪些高分电影是被严重低估的佳作。

查看全文

http://www.jsqmd.com/news/502632/

收藏！小白程序员必看：OpenClaw揭秘AI记忆如何改变未来助手体验

突破自动驾驶数据标注瓶颈：3D点云标注工具的五大技术革新与行业应用

主管护师备考资料怎么选？基于近三年考情分析的实用建议 - 医考机构品牌测评专家

电子钱包背后的秘密：拆解NXP S50卡值块存储原理与加减值操作

IDEA Terminal无法启动？5分钟搞定PowerShell路径配置（避坑指南）

告别重复造轮子：借快马AI一键生成高效STM32串口驱动模块，提升开发效率

论文全文降AI率后怎么检验效果？验证方法教程

2026年主管护师考试押题卷推荐及备考应用指南 - 医考机构品牌测评专家

Mac鼠标优化终极指南：告别原生限制，解锁专业级操控体验

Hunyuan-MT-7B效果实测：33种语言互译，Chainlit界面一键体验

树莓派4B上ROS2 Humble开发环境搭建：Ubuntu 22.04 LTS最佳实践

PyTorch 中的 torch.distributions 模块与 Categorical 分布在强化学习中的实战应用

JAVA学习笔记day06

DeepChat跨平台部署指南：从环境准备到生产构建

Janus-Pro-7B WebUI保姆级教学：上传限制、格式兼容性与分辨率优化建议

图解NT-Xent损失：从余弦相似度到交叉熵的完整计算流程（PyTorch版）

别再手动调格式了！用这个CSL文件，5分钟搞定东南大学硕博论文的Zotero参考文献

【LeetCode 134.加油站】贪心算法最优解超详细解析｜图文+代码+证明

3个强力策略解决VS Code R扩展配置难题

Cadence实战：如何高效复用腾锐D2000原理图设计（附OLB库建立技巧）

Intel e1000e网卡驱动实战：从源码到数据包收发全流程解析（附避坑指南）

算法训练营day2|leetcode209.长度最小的子数组，59.螺旋矩阵区间和数组总结

收藏！小白程序员必看：AI大模型三大颠覆性趋势，抓住2026年风口！

LLM (大模型) 从模型结构到推理到训练的底层原理到应用落地的全栈剖析

云原生周刊：Kubernetes 1.36 要来了

全自动绕线机工厂哪家专业？选型指南+靠谱厂家推荐 - 妙妙水侠

SG90舵机PWM驱动设计与嵌入式精准控制实践

5个步骤让你掌握Taskbar Groups工具：解决Windows任务栏混乱问题的完整方案

OpenVoice语音克隆技术指南：实现高精度音色复制与多语言转换

[Python实战] 用 pathlib 彻底统一文件路径处理，比字符串拼接稳得多