当前位置：首页 > news >正文

大众点评数据采集实战指南：五分钟破解反爬难题的完整方案

news 2026/7/27 12:54:57

大众点评数据采集实战指南：五分钟破解反爬难题的完整方案

【免费下载链接】dianping_spider大众点评爬虫（全站可爬，解决动态字体加密，非OCR）。持续更新项目地址: https://gitcode.com/gh_mirrors/di/dianping_spider

面对大众点评复杂的反爬机制，传统爬虫往往束手无策。动态字体加密、IP封禁限制、验证码拦截等重重障碍，让数据采集变得异常困难。本指南将详细介绍如何利用专业的大众点评爬虫工具，在五分钟内搭建稳定的数据采集环境，高效获取店铺信息和用户评价数据。

一、核心痛点分析与解决方案

1.1 四大技术挑战

动态字体加密：大众点评使用自定义字体文件对关键信息进行加密，导致直接爬取的文字显示为乱码
IP频率限制：高频请求会触发IP封禁机制，限制数据采集速度
Cookie验证机制：需要有效的登录Cookie才能访问完整数据
数据结构复杂：评论数据包含嵌套结构、图片、商家回复等多维度信息

1.2 智能化应对策略

本项目采用多层防护机制解决上述难题：

字体解密引擎：自动识别并解析动态字体文件，还原真实文字
智能请求调度：可配置的请求频率控制，避免触发反爬
Cookie池轮换：支持多Cookie账户自动切换，延长有效采集时间
代理IP支持：集成代理服务，突破IP限制

二、五分钟快速部署指南

2.1 环境准备与安装

系统要求：

Python 3.6+
MongoDB（可选，用于数据存储）
稳定的网络连接

安装步骤：

# 克隆项目仓库 git clone https://gitcode.com/gh_mirrors/di/dianping_spider cd dianping_spider # 安装依赖包 pip install -r requirements.txt

2.2 最简配置验证

编辑config.ini文件，配置基本参数：

[config] use_cookie_pool = False save_mode = mongo requests_times = 1,2;3,5;10,50 [detail] keyword = 火锅 location_id = 2 need_pages = 2 [proxy] use_proxy = False

编辑require.ini文件，配置爬取策略：

[shop_phone] need = False need_detail = False [shop_review] need = True more_detail = False need_pages = 1

2.3 首次运行验证

执行启动命令，观察控制台输出：

python main.py

成功标志：

程序开始显示爬取进度
无异常报错信息
控制台显示"正在爬取第X页"等信息

三、核心配置参数详解

3.1 基础配置模块（config.ini）

关键参数说明：

参数	类型	默认值	说明
`use_cookie_pool`	Boolean	False	是否启用Cookie池功能
`save_mode`	String	mongo	数据存储方式（目前仅支持mongo）
`requests_times`	String	1,2;3,5;10,50	智能请求频率控制
`user-agent`	String	Mozilla/5.0...	浏览器User-Agent

requests_times参数详解：

格式：次数1,间隔1;次数2,间隔2;次数3,间隔3
示例：1,2;3,5;10,50表示：
- 第1次请求后等待2秒
- 每3次请求后等待5秒
- 每10次请求后等待50秒

3.2 搜索参数配置（detail段）

参数	类型	默认值	说明
`keyword`	String	自助餐	搜索关键词
`location_id`	Integer	8	地区编码（上海=1，北京=2）
`need_pages`	Integer	5	需要爬取的搜索页数
`channel_id`	Integer	0	频道ID（0表示默认）

3.3 代理配置（proxy段）

参数	类型	默认值	说明
`use_proxy`	Boolean	False	是否启用代理
`http_extract`	Boolean	True	使用HTTP提取代理
`key_extract`	Boolean	False	使用密钥模式代理
`repeat_nub`	Integer	5	IP重复使用次数

3.4 爬取策略配置（require.ini）

三种典型配置模式对比：

模式类型	配置参数	数据覆盖范围	适用场景
基础模式	`need=False`	仅店铺基础信息	快速验证、数据采样
标准模式	`need=True`,`more_detail=False`	包含基础评论数据	常规分析、竞品调研
完整模式	`need=True`,`more_detail=True`	全量评论数据采集	深度研究、情感分析

四、实战案例：餐饮行业数据分析

4.1 场景一：火锅店铺竞品分析

需求背景：分析上海地区火锅店铺的市场分布、价格区间和用户评价

完整配置方案：

# config.ini 配置 [config] use_cookie_pool = True save_mode = mongo requests_times = 1,3;5,10;20,60 [detail] keyword = 火锅 location_id = 1 # 上海 need_pages = 10 [proxy] use_proxy = True http_extract = True http_link = http://your-proxy-service.com/api

# require.ini 配置 [shop_phone] need = False need_detail = False [shop_review] need = True more_detail = True need_pages = 5 [shop_location] need = True

数据采集目标：

店铺基本信息：名称、地址、评分、人均消费
用户评价数据：评论内容、评分、点赞数
地理位置信息：经纬度坐标
特色标签：菜品分类、服务特色

4.2 场景二：连锁品牌分店对比

需求背景：对比某连锁品牌在不同区域的分店表现

定制化爬取命令：

# 只爬取指定店铺的详情信息 python main.py --normal 0 --detail 1 --review 0 --shop_id k30YbaScPKFS0hfP --need_more False # 只爬取指定店铺的评论信息 python main.py --normal 0 --detail 0 --review 1 --shop_id k30YbaScPKFS0hfP --need_more False # 同时爬取详情和评论信息 python main.py --normal 0 --detail 1 --review 1 --shop_id k30YbaScPKFS0hfP --need_more False

五、数据结果展示与分析

5.1 搜索结果数据结构

搜索结果包含以下关键字段：

店铺ID：唯一标识符
店铺名称：完整的店铺名称
店铺地址：详细的地理位置信息
标签分类：如"四川火锅"、"重庆火锅"等
人均价格：消费价格区间
评论总数：用户评价数量
店铺评分：综合评分（1-5分）
详情链接：店铺详情页URL
图片链接：店铺封面图片URL

5.2 店铺详情数据结构

店铺详情页提供更丰富的信息：

联系方式：电话号码（可选脱敏显示）
营业时间：具体的营业时段
多维度评分：口味、环境、服务三个维度的评分
推荐菜品：用户推荐的特色菜品
店铺特色：如"有包厢"、"可停车"等服务标签

5.3 用户评论数据结构

评论数据包含完整的用户反馈信息：

用户信息：用户ID、用户名、等级
评分详情：用户对各项指标的评分
评论内容：详细的文字评价
互动数据：点赞数、回复数、浏览量
附加信息：喜欢的菜品、上传的图片
时间信息：评论发布时间、商家回复时间

5.4 评论可视化分析

可视化分析功能提供：

评论分类统计：好评、中评、差评的数量分布
关键词提取：自动提取评论中的高频词汇
情感分析：基于评论内容的情感倾向分析
图片分析：评论中图片的数量和质量统计

5.5 商家综合信息展示

商家综合信息面板包含：

评分维度对比：口味、环境、服务的评分对比
推荐菜品列表：用户常点的菜品排行
价格分布：人均消费的价格区间分析
服务标签：商家提供的特色服务项目

六、常见问题排查指南

6.1 依赖安装问题

症状表现：pip安装过程出现错误解决方案：

# 升级pip工具 pip install --upgrade pip # 单独安装关键依赖 pip install lxml requests tqdm faker beautifulsoup4 fontTools pymongo # 或者使用国内镜像源 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

6.2 Cookie失效问题

问题识别：

爬取进度停滞不前
控制台显示"WARNING: cookie失效或者被限制访问"
频繁出现验证码页面

解决步骤：

重新获取有效的Cookie信息
验证Cookie格式正确性（注意大小写）
检查网络连接稳定性
启用Cookie池功能，添加多个备用Cookie

6.3 IP封禁问题

问题现象：

控制台显示"WARNING: 详情页请求被ban"
出现"ERROR：代用代理吧小伙汁"提示
请求返回403或429状态码

配置调整：

[config] requests_times = 1,5;3,10;10,100 # 增加请求间隔 [proxy] use_proxy = True http_extract = True http_link = 您的代理服务地址 repeat_nub = 3 # 减少IP重复使用次数

6.4 数据存储问题

问题现象：控制台显示数据但未保存到数据库排查要点：

确认MongoDB服务运行状态

# 检查MongoDB服务 sudo systemctl status mongod # 或 mongod --version

验证数据库连接配置

mongo_path = mongodb://localhost:27017/ # 本地默认配置

检查数据写入权限

# 测试数据库连接 from pymongo import MongoClient client = MongoClient('mongodb://localhost:27017/') print(client.list_database_names())

6.5 字体加密问题

问题识别：爬取的文字显示为乱码或特殊字符解决方案：

确保安装了fontTools依赖
检查字体映射文件是否正确生成
查看get_font_map.py模块是否正常运行

七、高级功能与性能优化

7.1 Cookie池高效管理

启用Cookie池：

在cookies.txt中添加多个Cookie账户（每行一个）
配置use_cookie_pool = True
系统自动进行Cookie轮换使用

Cookie池配置示例：

# cookies.txt 文件内容 Cookie: fspop=test; cy=19; cye=dalian; _lxsdk_cuid=17a12f40183c8-079c5f4a6c5d68-4c3f2d73-1fa400-17a12f40183c8; _lxsdk=17a12f40183c8-079c5f4a6c5d68-4c3f2d73-1fa400-17a12f40183c8; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1623815619,1623843522; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1623843530; _hc.v=e5f18ed2-0f94-a5c1-6eba-496cdaa569fc.1623815619; thirdtoken=61c96f8b-f10f-407a-856c-e5cc2a561513; ll=7fd06e815b796be3df069dec7836c3df; ua=Anthony_2255; ctu=45dc2c9dbeb503a51745ea28aa40fe6f8fa6827d15ad25ac5424d1c31efe8385; s_ViewType=10; _lxsdk_s=17a149d974f-b34-2af-d74%7C%7C38; _dp.ac.v=204d0dcb-1b3f-4c7e-879b-169346a9ac46; dplet=a3a7734797ee59bace9d6fe248c7f30b; dper=665166c0ead3c5873a134ea90649396f77272e3363c85fa5e42fe6f3d0dea9f462e3541c2359850489fa3b22dc6cd6da92e7635f2d0271eb83b1b252a2e5e7ce3fa523e58455691cbbee9c9a445332be7bbaed8c4c0707d0605732e6dca5984f; ctu=4525a0f2c414ada41ff73a83012b0cec09904ae078695453b099887271231809f5179917106c7220fadbbf69e675b05e Cookie: fspop=test; cy=19; cye=dalian; _lxsdk_cuid=17a12f40183c8-079c5f4a6c5d68-4c3f2d73-1fa400-17a12f40183c8; _lxsdk=17a12f40183c8-079c5f4a6c5d68-4c3f2d73-1fa400-17a12f40183c8; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1623815619,1623843522; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1623843530; _hc.v=e5f18ed2-0f94-a5c1-6eba-496cdaa569fc.1623815619; thirdtoken=61c96f8b-f10f-407a-856c-e5cc2a561513; ll=7fd06e815b796be3df069dec7836c3df; ua=Anthony_2255; ctu=45dc2c9dbeb503a51745ea28aa40fe6f8fa6827d15ad25ac5424d1c31efe8385; s_ViewType=10; _lxsdk_s=17a149d974f-b34-2af-d74%7C%7C38; _dp.ac.v=204d0dcb-1b3f-4c7e-879b-169346a9ac46; dplet=a3a7734797ee59bace9d6fe248c7f30b; dper=665166c0ead3c5873a134ea90649396f77272e3363c85fa5e42fe6f3d0dea9f462e3541c2359850489fa3b22dc6cd6da92e7635f2d0271eb83b1b252a2e5e7ce3fa523e58455691cbbee9c9a445332be7bbaed8c4c0707d0605732e6dca5984f; ctu=4525a0f2c414ada41ff73a83012b0cec09904ae078695453b099887271231809f5179917106c7220fadbbf69e675b05e

7.2 智能请求频率优化

优化策略对比：

场景	推荐配置	说明
低风险采集	`1,1;5,3;20,10`	数据量小，反爬要求低
中等风险采集	`1,2;3,5;10,30`	常规商业分析场景
高风险采集	`1,3;5,10;20,60`	大规模数据采集，需谨慎
夜间采集	`1,5;10,30;50,120`	利用夜间低峰期

7.3 数据存储优化

MongoDB索引优化：

// 创建常用查询索引 db.shops.createIndex({ "location_id": 1, "score": -1 }) db.reviews.createIndex({ "shop_id": 1, "create_time": -1 }) db.reviews.createIndex({ "user_id": 1 }) db.reviews.createIndex({ "tags": 1 })

数据分片策略：

按地区分片：不同城市数据存储在不同集合
按时间分片：按月或季度分割历史数据
按业务分片：店铺信息、评论数据分开存储

7.4 错误处理与重试机制

配置建议：

# 在自定义脚本中添加重试逻辑 import time from utils.logger import logger def safe_request(url, max_retries=3): for attempt in range(max_retries): try: response = requests.get(url, headers=headers, timeout=10) if response.status_code == 200: return response else: logger.warning(f"请求失败，状态码: {response.status_code}") except Exception as e: logger.error(f"请求异常: {str(e)}") if attempt < max_retries - 1: wait_time = 2 ** attempt # 指数退避 logger.info(f"等待{wait_time}秒后重试...") time.sleep(wait_time) return None

八、进阶应用场景

8.1 市场调研分析

应用场景：分析特定品类在不同区域的市场表现数据维度：

店铺数量分布
价格区间对比
评分趋势分析
用户评价情感分析

配置示例：

[detail] keyword = 咖啡 location_id = 1,2,4 # 上海、北京、广州 need_pages = 15 [shop_review] need = True more_detail = True need_pages = 3

8.2 竞品监控系统

实现方案：

定期爬取竞品店铺数据
对比评分变化趋势
监控用户评价情感变化
分析新品推广效果

自动化脚本：

#!/bin/bash # 每日定时执行 0 2 * * * cd /path/to/dianping_spider && python main.py --keyword "星巴克" --location_id 1 --need_pages 5 0 3 * * * cd /path/to/dianping_spider && python main.py --keyword "瑞幸咖啡" --location_id 1 --need_pages 5

8.3 用户行为分析

分析维度：

评论时间分布分析
用户评分习惯研究
热门菜品趋势分析
季节性消费特征

数据应用：

# 用户评分分布分析 def analyze_rating_distribution(reviews): ratings = [review['rating'] for review in reviews] avg_rating = sum(ratings) / len(ratings) rating_dist = {} for rating in ratings: rating_dist[rating] = rating_dist.get(rating, 0) + 1 return { 'average': avg_rating, 'distribution': rating_dist, 'total_reviews': len(reviews) }