当前位置：首页 > news >正文

大众点评爬虫实战：3步配置破解动态字体加密，5分钟获取全站店铺数据

news 2026/7/14 23:33:03

大众点评爬虫实战：3步配置破解动态字体加密，5分钟获取全站店铺数据

【免费下载链接】dianping_spider大众点评爬虫（全站可爬，解决动态字体加密，非OCR）。持续更新项目地址: https://gitcode.com/gh_mirrors/di/dianping_spider

你是否曾经为了获取大众点评的店铺信息、用户评论和评分数据而头疼不已？面对网站复杂的反爬机制，特别是动态字体加密技术，传统的爬虫工具往往束手无策。数据采集效率低下、频繁被封IP、数据格式混乱——这些痛点让许多开发者和数据分析师望而却步。

今天，我将为你介绍一个强大的开源解决方案，它能帮你轻松突破大众点评的反爬壁垒，实现高效稳定的数据采集。无论你是需要市场调研数据、竞品分析还是用户行为研究，这个工具都能为你提供可靠的数据支持。

挑战分析：为什么大众点评数据采集如此困难？

大众点评作为国内领先的生活服务平台，其反爬机制堪称业界标杆。传统的爬虫方法在这里几乎寸步难行，主要面临三大挑战：

动态字体加密技术：大众点评采用动态生成的字体文件来保护关键数据，每次请求返回的字体映射关系都不同，普通爬虫无法正确解析显示内容。

多重验证机制：包括Cookie验证、UA检测、请求频率限制等多重防护，单一绕过手段很难奏效。

数据结构复杂：店铺信息、评论数据、评分体系分散在不同接口，需要复杂的逻辑整合。

面对这些挑战，你需要一个专门设计的解决方案。接下来，我将带你了解如何通过3步配置，在5分钟内启动你的数据采集系统。

解决方案概览：智能爬虫框架的设计哲学

这个大众点评爬虫项目的核心设计理念是"智能适配、多层防护"。它不是一个简单的请求工具，而是一个完整的反爬解决方案框架。

核心架构特点

1. 动态字体破解引擎项目内置了完整的字体映射解析系统，能够实时处理大众点评的动态字体加密，确保数据准确解析。

# 字体映射解析核心逻辑 def get_font_mapping(self, shop_id): """获取字体映射关系""" font_data = self.get_font_data(shop_id) mapping = self.parse_font_mapping(font_data) return mapping

2. 多层防护策略

Cookie池轮换机制
IP代理智能调度
请求频率自适应控制
User-Agent伪装

3. 模块化数据采集项目采用模块化设计，支持按需采集：

店铺搜索模块：获取搜索结果列表
详情信息模块：采集完整店铺档案
评论数据模块：获取用户真实评价

实战演练：从零开始配置你的数据采集系统

第一步：环境准备与项目部署

首先获取项目代码并安装依赖：

git clone https://gitcode.com/gh_mirrors/di/dianping_spider cd dianping_spider pip install -r requirements.txt

如果遇到网络问题，可以使用国内镜像加速安装：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

第二步：核心配置文件详解

项目有两个核心配置文件：config.ini和require.ini。让我们重点了解关键配置项：

config.ini - 基础运行配置

[config] # 是否使用Cookie池（推荐大规模采集时开启） use_cookie_pool = False # 保存模式，目前支持MongoDB save_mode = mongo # 智能请求频率控制：每1次请求休息2秒；每3次请求休息5秒；每10次请求休息50秒 requests_times = 1,2;3,5;10,50 [detail] # 搜索关键词（如：自助餐、火锅、咖啡厅） keyword = 自助餐 # 地区ID（上海=1，北京=2，广州=4，大连=8） location_id = 8 # 需要采集的页数 need_pages = 5

require.ini - 数据采集策略

[shop_phone] # 是否需要获取店铺电话 need = False # 是否需要完整电话号码（需要登录状态） need_detail = False [shop_review] # 是否需要获取评论数据 need = True # 是否需要更多评论（精选评论只有10条） more_detail = True # 需要采集的评论页数（每页30条） need_pages = 3

注意：获取完整电话号码和大量评论数据需要登录状态，频繁请求可能导致账号暂时被封。建议根据实际需求谨慎选择。

第三步：运行与验证

完成配置后，运行主程序开始数据采集：

python main.py

如果一切正常，你将在控制台看到实时的采集进度，数据会自动保存到MongoDB中。

数据展示：看看你能获取到什么

成功运行后，你将获得结构化的店铺数据和用户评论。让我们看看这些数据的具体格式：

店铺基础信息展示

如上图所示，你可以获取到店铺的名称、评分、人均消费、地址等基本信息，以及推荐菜品等详细数据。这些数据以结构化的JSON格式存储，便于后续分析处理。

用户评论数据分析

评论数据包括好评、中评、差评的分布统计，以及每条评论的具体内容、评分、发布时间等信息。这些数据对于用户行为分析和市场研究具有重要价值。

结构化数据格式

所有数据都以规范的JSON格式存储，确保数据的一致性和可处理性。每个字段都有明确的含义，便于后续的数据清洗和分析工作。

进阶技巧：如何优化采集效率与稳定性

1. Cookie池配置技巧

对于大规模数据采集，建议开启Cookie池功能。在cookies.txt文件中添加多个有效的Cookie，程序会自动轮换使用：

cookie1: fspop=test; cy=19; cye=dalian; _lxsdk_cuid=... cookie2: fspop=test; cy=1; cye=shanghai; _lxsdk_cuid=... cookie3: fspop=test; cy=4; cye=guangzhou; _lxsdk_cuid=...

每个Cookie对应不同的用户身份，轮换使用可以有效降低被封风险。

2. 代理IP配置策略

如果需要更高的匿名性，可以配置代理IP服务：

[proxy] use_proxy = True http_link = http://your-proxy-service.com/api

项目支持HTTP代理和密钥模式代理，可以根据你的代理服务类型进行配置。

3. 智能请求频率控制

项目的requests_times参数采用三级防护策略：

轻度防护：每1次请求后休息2秒，适合小规模采集
中度防护：累计3次请求后休息5秒，平衡效率与安全
重度防护：累计10次请求后休息50秒，确保长期稳定运行

你可以根据采集规模调整这些参数，找到效率与安全的最佳平衡点。

4. 定制化采集模式

除了完整的搜索→详情→评论流程，项目还支持灵活的定制化采集：

# 只采集特定店铺的详情信息 python main.py --normal 0 --detail 1 --review 0 --shop_id k30YbaScPKFS0hfP # 只采集特定店铺的评论数据 python main.py --normal 0 --detail 0 --review 1 --shop_id k30YbaScPKFS0hfP # 同时采集详情和评论 python main.py --normal 0 --detail 1 --review 1 --shop_id k30YbaScPKFS0hfP

这种灵活性让你能够针对性地采集所需数据，避免不必要的资源消耗。

避坑指南：常见问题与解决方案

问题1：依赖安装失败

症状：pip install命令执行失败或报错

解决方案：

# 升级pip工具 pip install --upgrade pip # 单独安装核心依赖 pip install lxml requests tqdm faker beautifulsoup4 fontTools pymongo # 或使用指定版本的依赖 pip install -r requirements.txt --no-deps