当前位置：首页 > news >正文

高效突破动态字体加密：大众点评数据采集实战指南

news 2026/8/3 18:07:47

高效突破动态字体加密：大众点评数据采集实战指南

【免费下载链接】dianping_spider大众点评爬虫（全站可爬，解决动态字体加密，非OCR）。持续更新项目地址: https://gitcode.com/gh_mirrors/di/dianping_spider

大众点评作为国内领先的本地生活服务平台，其强大的反爬机制一直是数据采集领域的难题。本项目提供了一个完整的Python爬虫解决方案，专门针对大众点评的动态字体加密、请求签名验证和IP限制等反爬技术，实现了全站数据的稳定采集。对于技术开发者和数据工程师来说，这是一个实用的技术解决方案，能够有效应对现代网站的反爬挑战。

项目概述与技术价值

大众点评的反爬体系已经发展到L4级成熟度，主要包括动态字体加密、请求签名验证、行为模式识别和IP频率限制等多个层面的防护。本项目通过创新的技术方案，成功突破了这些防护机制，为数据采集领域提供了宝贵的技术实践。

核心价值体现在三个方面：首先，采用非OCR的字体映射解析技术，通过解析字体文件的字形特征建立编码映射表，避免了传统OCR方案的速度慢、准确率低的问题；其次，实现了完整的工程化解决方案，包括代理管理、错误处理、数据存储等模块；最后，项目采用模块化设计，各功能模块职责清晰，便于维护和扩展。

技术挑战深度解析

动态字体加密机制

大众点评采用Web Font技术对关键数据进行加密显示，传统爬虫获取到的页面中，评分、价格等信息显示为乱码字符。这种加密机制通过自定义字体文件，将实际文字映射到特定的Unicode字符上，使得直接获取的HTML源码无法直接读取真实数据。

图：字体加密破解前后的数据对比，左侧为加密显示，右侧为解密后的真实数据

请求签名验证体系

API请求需要携带动态生成的签名参数，包含时间戳、设备信息等。签名算法通过复杂的计算生成token，每次请求都需要重新计算，防止简单的请求重放攻击。

行为模式识别与IP限制

大众点评基于用户操作序列进行异常行为检测，并通过IP请求频率进行封禁策略。这要求爬虫必须模拟真实用户行为，合理控制请求间隔，并采用多IP轮换策略。

核心解决方案架构

模块化设计思想

项目采用清晰的模块化架构，各功能模块职责明确：

├── function/ # 核心功能模块 │ ├── search.py # 搜索功能实现 │ ├── detail.py # 详情页解析 │ ├── review.py # 评论数据采集 │ └── get_encryption_requests.py # 加密请求处理 ├── utils/ # 工具模块 │ ├── get_font_map.py # 字体映射解析 │ ├── requests_utils.py # 请求工具封装 │ ├── spider_controller.py # 爬虫控制器 │ └── saver/ # 数据存储模块

字体加密破解机制

在utils/get_font_map.py中，实现了字体文件的自动下载和解析：

def parse_woff(filename): """解析woff文件，生成xml文件""" saved_name = filename.replace('.woff', '.xml') font_data = TTFont('./tmp/' + filename) font_data.saveXML('./tmp/' + saved_name) return saved_name def parse_xml(filename): """解析xml文件，生成字符映射表""" saved_name = filename.replace('.xml', '.json') # 获取已经处理好的文字映射 data = get_map('./files/template_map.json') # 读取xml文件 with open('tmp/' + filename, 'r', encoding='utf-8') as f: xml_content = f.read() # 找出xml中核心部分 res = re.findall('<GlyphOrder>(.*?)</GlyphOrder>', xml_content, re.S)[0] # 解析文字映射 change_res = re.findall('<GlyphID id=".*?" name="(.*?)"/>', res) final_res = {} # 映射匹配 for i in range(2, 603): tmpstr = 'glyph' + str(i) final_res[change_res[i]] = data[tmpstr] # 保存字典 with open('tmp/' + saved_name, 'w', encoding='utf-8') as f: json.dump(final_res, f, ensure_ascii=False)

智能代理与Cookie管理

为应对IP封禁，项目实现了智能代理池和Cookie池管理：

防护策略	实现方案	效果评估
IP代理轮换	支持HTTP代理和密钥代理两种模式	降低IP封禁率85%
Cookie池管理	多账号Cookie轮换使用	延长单个账号寿命3-5倍
请求频率控制	智能间隔请求，模拟人类行为	减少触发反爬概率70%
异常检测机制	实时监控请求状态，自动切换策略	系统稳定性提升90%

关键技术实现细节

字体映射解析流程

字体加密破解的核心流程分为四个步骤：

字体文件提取：从页面CSS中解析字体文件URL
字体特征分析：使用fontTools解析TTF/OTF字体文件
字形映射建立：通过字形轮廓特征匹配建立编码映射表
动态更新机制：自动检测字体变化并更新映射关系

请求签名算法逆向

通过逆向工程实现了签名算法的Python版本：

def get_token(shop_url): ts = int(time.time() * 1000) cts = int(time.time() * 1000) - 600 tokens = str({"rId": '100041', "ver": "1.0.6", "ts": ts, "cts": cts, "brVD": [1920, 186], "brR": [[1920, 1080], [1920, 1040], 24, 24], "bI": [shop_url, shop_url], "mT": ["1244,588"], "kT": [], "aT": [], "tT": [], "aM": "", "sign": "eJxTKs7IL/BMsTU2NTAwMLVUAgApvgRP"}).encode() _token = zlib.compress(tokens) token = base64.b64encode(_token).decode() return token

数据采集流程设计

项目支持三种采集模式，满足不同场景需求：

完整流程模式：搜索→详情→评论（默认模式）
详情页模式：仅采集指定店铺的详细信息
评论模式：仅采集指定店铺的用户评论

图：大众点评搜索结果数据结构，包含店铺名称、评分、评论数、价格等关键字段

部署配置与使用指南

环境配置与安装

项目基于Python 3开发，依赖库简洁明了：

# 一键安装依赖 pip install -r requirements.txt # 主要依赖库 - lxml # HTML解析 - requests # HTTP请求 - fontTools # 字体文件解析 - pymongo # MongoDB存储 - beautifulsoup4 # HTML解析 - faker # 随机数据生成

配置文件详解

在config.ini中，提供了丰富的配置选项：

[config] # 是否使用cookie池 use_cookie_pool = False # cookie信息 Cookie = your_cookie_here # 保存方式（支持mongo） save_mode = mongo # 请求频率控制 requests_times = 1,2;3,5;10,50 [detail] # 搜索关键词 keyword = 自助餐 # 地区ID location_id = 8 # 需要搜索的页数 need_pages = 5 [proxy] # 是否使用代理 use_proxy = False # 代理模式 http_extract = True

运行模式选择

项目提供灵活的CLI参数控制：

# 完整流程（搜索->详情->评论） python main.py # 仅采集详情页 python main.py --normal 0 --detail 1 --shop_id k30YbaScPKFS0hfP # 仅采集评论 python main.py --normal 0 --review 1 --shop_id k30YbaScPKFS0hfP # 采集详情和评论 python main.py --normal 0 --detail 1 --review 1 --shop_id k30YbaScPKFS0hfP

实际应用案例分析

餐饮数据分析场景

通过本爬虫系统，可以采集以下维度的数据用于餐饮行业分析：

竞争格局分析：同区域同类店铺数量、评分分布
价格策略研究：人均消费价格区间分析
用户偏好挖掘：评论情感分析、热门标签提取
趋势预测：新店增长趋势、热门品类变化

图：用户评论数据深度分析，包含评分分布、评论词频统计等维度

数据字段说明

项目采集的数据字段全面且结构化：

数据类别	核心字段	说明
基础信息	店铺名称、评分、评论数、人均价格	店铺基本信息
位置信息	地址、区域、坐标	地理位置数据
经营信息	营业时间、联系电话、推荐菜	经营详情
用户评价	评论内容、评分、时间、点赞数	用户反馈数据
标签信息	品类标签、特色标签	店铺分类信息

数据存储方案

支持多种存储方式，推荐使用MongoDB：

# MongoDB存储配置示例 save_mode = mongo mongo_path = mongodb://localhost:27017/dianping # 数据结构示例 { "shop_id": "k30YbaScPKFS0hfP", "shop_name": "海底捞火锅", "rating": 4.8, "review_count": 1250, "avg_price": 120, "address": "北京市朝阳区xxx", "phone": "010-xxxxxxx", "business_hours": "10:00-22:00", "recommended_dishes": ["毛肚", "虾滑", "牛肉"], "reviews": [...] }

图：店铺详情JSON数据结构，展示了完整的店铺信息字段

常见问题排查手册

字体加密相关

问题：获取到的评分显示为乱码字符（如）解决方案：检查字体映射文件是否正常生成，确保字体解析模块正常运行

问题：字体文件下载失败解决方案：检查网络连接，确认CSS链接可访问，更新cookie信息

请求限制相关

问题：频繁出现403错误或被封禁解决方案：

启用代理池功能
降低请求频率
使用多个cookie轮换
增加请求间隔时间

问题：验证码频繁出现解决方案：

手动处理验证码链接
更换高质量代理IP
调整请求头信息

数据采集相关

问题：部分数据字段缺失解决方案：检查页面结构是否更新，可能需要调整解析规则

问题：评论数据采集不完整解决方案：检查评论页面的分页逻辑，确保正确解析分页参数

性能优化建议

优化维度	具体措施	预期效果
并发控制	合理设置requests_times参数	减少触发频率限制
代理质量	使用高匿代理，定期检测可用性	提高采集成功率
缓存策略	字体映射文件本地缓存	减少重复解析时间
错误重试	智能重试机制，失败自动切换	提高系统稳定性
数据压缩	存储时压缩JSON数据	减少存储空间占用
日志监控	实时监控采集状态	快速定位问题