当前位置：首页 > news >正文

Python爬虫实战：5分钟搞定豆瓣电影TOP250数据抓取（附完整代码）

news 2026/7/5 9:48:09

Python爬虫实战：5分钟搞定豆瓣电影TOP250数据抓取（附完整代码）

刚接触Python爬虫时，很多人会被各种概念和库搞得晕头转向。其实爬虫的核心逻辑非常简单：发送请求→获取数据→解析数据→存储数据。今天我们就用最直接的方式，带你在5分钟内完成豆瓣电影TOP250的数据抓取。

这个案例特别适合想快速看到成果的初学者。不需要复杂的配置，几行代码就能把电影名称、评分、导演等信息全部抓取下来。我们会用最轻量的依赖库，并解释每一行代码的作用，让你真正理解爬虫的运行机制。

1. 环境准备与工具选择

在开始之前，确保你的Python环境已经安装了以下库：

pip install requests lxml

为什么选择这两个库？requests是Python中最简单易用的HTTP库，而lxml的解析速度比BeautifulSoup快很多，特别适合处理大量数据。对于初学者来说，这两个库的组合既轻量又高效。

提示：如果你在使用国内网络，可能会遇到访问豆瓣速度慢的问题。可以尝试在非高峰时段运行代码。

2. 分析网页结构与数据定位

首先打开豆瓣电影TOP250页面，我们需要观察几个关键点：

URL规律：每页显示25部电影，翻页时URL中的start参数按25递增
数据位置：所有电影信息都包含在<ol class="grid_view">下的<li>标签中
关键字段：
- 电影名称：<span class="title">
- 评分：<span class="rating_num">
- 基本信息：<div class="bd">下的第一个<p>标签

通过浏览器开发者工具(F12)，我们可以快速验证这些选择器是否准确。这是爬虫开发中最关键的步骤——确保你能准确定位到目标数据。

3. 完整爬虫代码实现

下面是完整的爬虫代码，我们将其拆解为几个部分来理解：

import requests from lxml import etree import re def get_douban_top250(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } with open('douban_top250.csv', 'w', encoding='utf-8') as f: f.write('电影名,导演,主演,年份,国家,类型,评分,短评\n') for start in range(0, 250, 25): url = f'https://movie.douban.com/top250?start={start}' response = requests.get(url, headers=headers) html = etree.HTML(response.text) for item in html.xpath("//ol[@class='grid_view']/li"): name = item.xpath(".//span[@class='title'][1]/text()")[0] info = item.xpath(".//div[@class='bd']/p[1]/text()")[0].strip() score = item.xpath(".//span[@class='rating_num']/text()")[0] quote = item.xpath(".//span[@class='inq']/text()")[0] if item.xpath(".//span[@class='inq']/text()") else '' # 解析导演、年份等信息 director = re.search(r'导演:(.*?)\s', info).group(1) if re.search(r'导演:(.*?)\s', info) else '' year = re.search(r'(\d{4})', info).group(1) if re.search(r'(\d{4})', info) else '' country = info.split('/')[-2].strip() genre = info.split('/')[-1].strip() f.write(f'"{name}","{director}","","{year}","{country}","{genre}","{score}","{quote}"\n') print(f'已获取: {name}') if __name__ == '__main__': get_douban_top250()

代码关键点解析：

请求头设置：豆瓣会检查User-Agent，我们需要模拟浏览器访问
分页处理：通过start参数实现自动翻页，每页25条，共10页
数据清洗：使用正则表达式提取导演、年份等结构化信息
异常处理：有些电影可能缺少某些字段，代码做了简单容错

4. 数据存储与后续分析

我们将数据保存为CSV格式，这种结构化的存储方式非常适合后续分析。你可以用Excel直接打开，或者用Python的pandas库进行更深入的分析：

import pandas as pd df = pd.read_csv('douban_top250.csv') # 查看评分最高的10部电影 print(df.sort_values('评分', ascending=False).head(10))

如果想进一步扩展这个项目，可以考虑：

添加异常重试机制，提高爬虫稳定性
使用多线程加速抓取过程
将数据存入数据库而非CSV文件
对抓取的数据进行可视化分析

5. 常见问题与解决方案

在实际运行中，你可能会遇到以下问题：

问题现象	可能原因	解决方案
返回403错误	请求被服务器拒绝	更换User-Agent或添加更多请求头
数据缺失	XPath选择器不准确	重新检查网页结构，更新选择器
程序突然终止	网络波动或字段缺失	添加try-catch块捕获异常

最后提醒一点：爬虫虽然强大，但一定要遵守网站的robots.txt规则，控制请求频率，避免给服务器造成过大压力。

查看全文

http://www.jsqmd.com/news/517578/