当前位置：首页 > news >正文

手把手教你用Charles抓包分析Protobuf协议（附Python解析代码）

news 2026/7/7 4:37:35

深入掌握Protobuf协议分析：从Charles抓包到Python解析实战

Protobuf（Protocol Buffers）作为Google开发的高效数据序列化协议，在移动应用和微服务架构中广泛应用。与JSON、XML等文本协议不同，Protobuf采用二进制格式传输，虽然提高了效率，但也给开发者调试和分析带来了挑战。本文将带你使用Charles抓包工具识别Protobuf数据特征，并通过Python代码示例演示如何根据抓包结果还原proto文件并实现数据解析。

1. 准备工作与环境配置

在开始抓包分析前，我们需要准备好必要的工具和环境。Charles作为一款功能强大的HTTP/HTTPS抓包工具，能够帮助我们拦截和查看网络请求，特别适合分析移动应用与服务器之间的通信。

首先需要下载并安装Charles（官网提供Windows、macOS和Linux版本）。安装完成后，建议进行以下基础配置：

代理设置：Charles默认监听8888端口，确保手机或模拟器已正确配置代理
SSL证书安装：为了解密HTTPS流量，需要在设备和电脑上安装Charles根证书
过滤设置：添加目标应用的域名过滤，避免捕获过多无关流量

对于Python环境，建议使用3.7+版本，并安装以下必备库：

pip install protobuf grpcio-tools

提示：在macOS上，如果遇到证书信任问题，需要在钥匙串访问中将Charles证书设置为"始终信任"

2. 识别Protobuf流量特征

当应用使用Protobuf协议通信时，在Charles中通常会有以下明显特征：

Content-Type头部：常见值为application/x-protobuf或application/grpc
响应体显示：原始二进制数据或Charles尝试解析后的结构化数据
数据大小：相比JSON，相同数据的Protobuf体积通常小30%-50%

在Charles中，如果看到类似下面的响应头，很可能就是Protobuf数据：

Content-Type: application/x-protobuf Content-Length: 123

对于简单的Protobuf数据，Charles可能自动解析并显示结构化内容。例如，你可能会看到类似这样的数据：

1: "John Doe" 2: 30 3: "johndoe@example.com"

这里的数字1、2、3不是Charles自动生成的序号，而是proto文件中message定义的字段编号，这是还原proto文件的关键线索。

3. 从抓包结果还原proto文件

根据Charles抓包结果还原proto文件是一个需要耐心和技巧的过程。下面我们通过一个实际案例来演示具体步骤。

假设我们抓取到一个用户信息查询接口，Charles显示响应内容如下：

1: "u123456" 2: "张三" 3: 1 4: { 1: "北京市" 2: "海淀区" 3: "中关村大街1号" } 5: 18500000000

根据这些信息，我们可以推断出对应的proto文件结构：

syntax = "proto3"; message Address { string province = 1; string city = 2; string street = 3; } message UserInfo { string user_id = 1; string name = 2; int32 gender = 3; // 1男 2女 Address address = 4; int64 phone = 5; }

还原proto文件时需要注意几个关键点：

字段编号必须与抓包数据完全一致
字段类型需要根据值合理推断（如电话号码虽然全是数字，但可能溢出int32范围，应使用int64）
嵌套消息需要单独定义
不确定的字段可以先用通用类型，后续再调整

对于更复杂的情况，如遇到以下特征，可能需要额外处理：

字段编号不连续：可能省略了某些可选字段
重复字段：可能是repeated类型的数组
特殊值：如-1、0可能具有特殊含义

4. 处理加密和压缩的Protobuf数据

现代应用通常会对Protobuf数据进行额外处理以提高安全性和效率，常见的有：

处理方式	特征	解决方法
Gzip压缩	Content-Encoding: gzip	在Charles中启用"Decompress Gzip"选项
AES加密	数据完全不可读	需要逆向分析app获取密钥和算法
自定义编码	有规律但不标准	分析app解码逻辑

对于Gzip压缩的情况，可以在Charles的Proxy设置中勾选"Decompress Gzip"选项，这样Charles会自动解压显示原始数据。

如果数据经过加密，Charles将无法直接解析，此时需要：

逆向分析app，找到加密解密逻辑
编写Charles本地映射脚本解密数据
使用mitmproxy等更灵活的工具自定义处理

例如，发现app使用AES加密Protobuf数据，可以编写如下Python解密代码：

from Crypto.Cipher import AES import base64 def decrypt_protobuf(encrypted_data, key, iv): cipher = AES.new(key, AES.MODE_CBC, iv) decrypted = cipher.decrypt(encrypted_data) # 去除PKCS7填充 pad_len = decrypted[-1] return decrypted[:-pad_len]

5. Python解析Protobuf实战

有了proto文件后，我们可以使用protoc编译器生成Python代码，并实现完整的解析流程。以下是详细步骤：

将编写好的proto文件保存为user.proto
使用protoc生成Python代码：

protoc --python_out=. user.proto

这会生成user_pb2.py文件，包含所有消息类的定义。

编写Python代码解析抓包数据：

import user_pb2 from google.protobuf.json_format import MessageToDict # 假设raw_data是从Charles复制的二进制数据 def parse_protobuf(raw_data): user = user_pb2.UserInfo() user.ParseFromString(raw_data) # 转换为字典便于处理 user_dict = MessageToDict(user) print(user_dict) # 访问具体字段 print(f"用户名: {user.name}") if user.HasField('address'): print(f"地址: {user.address.province}{user.address.city}")

对于请求的构造，同样可以使用生成的pb2模块：

def build_request(user_id): req = user_pb2.GetUserRequest() req.user_id = user_id return req.SerializeToString()

在实际项目中，可能会遇到一些常见问题：

字段缺失：使用HasField()检查可选字段是否存在
枚举类型：proto中的枚举会生成Python枚举类
默认值：注意数值类型默认为0，字符串默认为空

6. 高级技巧与自动化分析

对于需要频繁分析Protobuf协议的场景，可以开发一些自动化工具提高效率。以下是几个实用技巧：

字段类型自动推断：编写脚本分析多个样本，统计字段值特征推断类型
差异对比：捕获正常和异常响应，比较字段变化找出关键字段
流量重放：将解析后的请求保存为模板，修改关键字段重放测试

一个简单的字段分析脚本示例：

from collections import defaultdict def analyze_fields(samples): field_stats = defaultdict(lambda: { 'types': set(), 'values': set(), 'lengths': set() }) for data in samples: for field_num, value in data.items(): stats = field_stats[field_num] stats['types'].add(type(value).__name__) stats['values'].add(value) if isinstance(value, str): stats['lengths'].add(len(value)) return field_stats

对于复杂的嵌套结构，可以借助可视化工具展示消息关系。虽然不能使用mermaid图表，但可以通过缩进文本表示：

UserProfile ├─ basic_info: UserBasic │ ├─ user_id: string │ ├─ name: string │ └─ avatar: string └─ preferences: UserPrefs ├─ theme: enum └─ notification_settings: map

7. 实际案例分析：电商APP商品列表

让我们看一个电商APP商品列表接口的实际案例。通过Charles抓包发现响应结构如下：

1: { 1: "p123" 2: "无线蓝牙耳机" 3: 19900 4: 4.5 5: 1000 } 2: { 1: "p456" 2: "Type-C数据线" 3: 2900 4: 4.2 5: 500 } ...

可以推断出proto定义：

message Product { string id = 1; string name = 2; int32 price = 3; // 以分为单位 float rating = 4; int32 sales = 5; } message ProductListResponse { repeated Product products = 1; }

对应的Python解析代码需要注意：

价格单位转换（分→元）
浮点数精度处理
空列表情况的处理

def parse_products(response_data): response = product_pb2.ProductListResponse() response.ParseFromString(response_data) for product in response.products: print(f"{product.name} ￥{product.price/100:.2f}") print(f"评分: {product.rating:.1f} 销量: {product.sales}")

在处理这类数据时，常见的陷阱包括：

价格使用int32可能溢出（对于高价商品）
评分float类型比较时要注意精度问题
销量可能是累计值而非当前库存

8. 性能优化与调试技巧

当处理大量Protobuf数据时，性能可能成为瓶颈。以下是一些优化建议：

使用C++版本：Python protobuf包有纯Python和C++实现，后者性能更好
避免频繁解析：对于不变的数据，解析一次后缓存结果
选择性解析：使用FieldMask只解析需要的字段

性能对比测试代码：

import timeit setup = ''' import product_pb2 data = open('product_data.bin', 'rb').read() ''' stmt = ''' product = product_pb2.Product() product.ParseFromString(data) ''' print(f"解析时间: {timeit.timeit(stmt, setup, number=1000)}ms")

调试Protobuf时，可以借助一些实用方法：

SerializeToString()：查看序列化后的二进制数据
MessageToDict()：转换为字典便于打印
MergeFromString()：合并多个消息

对于复杂的问题，可以启用protobuf的调试模式：

import os os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "cpp" os.environ["PROTOCOL_BUFFERS_DEBUG"] = "1"

9. 常见问题与解决方案

在实际项目中，你可能会遇到以下典型问题：

问题1：解析时出现"DecodeError: Field number 0 is illegal"

原因：proto文件字段编号从1开始，0是保留值解决：检查proto文件定义，确保所有字段编号≥1

问题2：解析结果缺少某些字段

可能原因：

字段被标记为optional且未设置
字段编号与proto定义不一致
数据被截断或不完整

问题3：性能突然下降

排查步骤：

检查数据量是否显著增长
确认使用的是C++实现
分析是否有重复解析

一个实用的调试检查清单：

[ ] 确认proto文件与数据实际结构匹配
[ ] 检查字段编号和类型是否正确
[ ] 验证数据是否完整未被截断
[ ] 测试空数据或异常数据情况
[ ] 检查是否有压缩或加密

10. 工具链扩展与生态系统

除了Charles和Python，Protobuf分析还可以结合其他工具形成完整的工作流：

工具	用途	适用场景
Wireshark	底层网络分析	非HTTP协议或TCP层问题
Fiddler	HTTP/HTTPS抓包	Windows平台替代Charles
mitmproxy	可编程中间人代理	需要自定义脚本处理数据
protoc	proto文件编译	生成各种语言代码
grpcurl	gRPC调试	测试gRPC服务

对于gRPC服务，可以使用grpcli或BloomRPC等GUI工具。如果是移动端APP，可以考虑使用Objection框架进行动态分析。

一个典型的分析工作流可能是：

Charles捕获原始请求/响应
Python脚本自动化解析和转换
Jupyter Notebook进行数据分析和可视化
自动化测试脚本验证各种边界情况

对于团队协作，可以考虑：

将proto文件放入版本控制
设置持续集成验证proto修改
使用Buf等工具进行proto文件lint和格式化

11. 安全注意事项与最佳实践

在进行Protobuf协议分析时，务必注意以下安全准则：

法律合规：只分析自己有权限测试的应用
数据保护：不泄露抓取到的用户隐私数据
测试环境：尽量使用测试账号而非生产数据
频率控制：避免高频请求导致服务器压力

一些推荐的伦理准则：

分析目的应限于学习和技术研究
发现漏洞应负责任的披露
不开发或传播作弊工具
尊重服务条款和开发者版权

对于企业级应用，建议：

使用TLS加密所有通信
对敏感字段单独加密
实现请求签名防篡改
监控异常流量模式

12. 从分析到开发：构建Protobuf服务

掌握了Protobuf分析技能后，你可以进一步开发自己的Protobuf服务。以下是一个简单的Python gRPC服务示例：

// service.proto syntax = "proto3"; service UserService { rpc GetUser (GetUserRequest) returns (UserResponse); } message GetUserRequest { string user_id = 1; } message UserResponse { string user_id = 1; string name = 2; string email = 3; }

生成gRPC代码：

python -m grpc_tools.protoc -I. --python_out=. --grpc_python_out=. service.proto

服务端实现：

import grpc from concurrent import futures import service_pb2 import service_pb2_grpc class UserService(service_pb2_grpc.UserServiceServicer): def GetUser(self, request, context): return service_pb2.UserResponse( user_id=request.user_id, name="Test User", email="test@example.com" ) server = grpc.server(futures.ThreadPoolExecutor()) service_pb2_grpc.add_UserServiceServicer_to_server(UserService(), server) server.add_insecure_port('[::]:50051') server.start() server.wait_for_termination()

客户端调用：

import grpc import service_pb2 import service_pb2_grpc channel = grpc.insecure_channel('localhost:50051') stub = service_pb2_grpc.UserServiceStub(channel) response = stub.GetUser(service_pb2.GetUserRequest(user_id="123")) print(response)

在实际项目中，你可能还需要：