当前位置：首页 > news >正文

实战解析：如何利用Python计算二进制文件的信息熵Entropy

news 2026/7/30 10:11:18

1. 信息熵到底是什么？从天气预报到二进制分析

第一次听说"信息熵"这个概念时，我正坐在大学的信息论课堂上。教授用了一个特别生活化的例子：假设你每天出门前都要猜天气，如果当地只有晴天这一种天气，那你根本不需要猜测，信息量就是0；但如果晴天、雨天、阴天、雪天出现的概率相同，这时候你需要最多的信息量来做判断。这个"信息量"的度量，就是信息熵。

在技术领域，信息熵量化了数据中的不确定性。对于二进制文件来说，熵值越高意味着数据分布越随机。这个特性在安全分析中特别有用——比如一个正常的Windows PE文件（就是.exe可执行文件）熵值通常在4.7-5.3之间，但如果超过6.0，很可能就被加壳或压缩过。去年分析一个恶意样本时，我就遇到过熵值高达7.8的情况，后来证实是用了多层VMProtect加密。

计算信息熵的数学公式看起来有点吓人：

H = -Σ P(x) * log₂P(x)

但其实理解起来很简单：把数据中每个字节值（0-255）出现的概率P(x)算出来，套进这个公式累加就行。举个例子，一个只包含00和FF两个字节的文件，如果各占50%，它的熵值就是：

- (0.5*log₂0.5 + 0.5*log₂0.5) = 1.0

2. 手把手实现Python熵值计算

2.1 二进制文件读取的正确姿势

用Python处理二进制文件时，很多人会犯的第一个错误是忘记加'b'模式。有次我帮同事调试代码，他死活读不出正确熵值，最后发现是文件打开方式写成了open('file.exe')而不是open('file.exe', 'rb')。

正确的读取方式应该是：

def read_bytes(file_path): with open(file_path, 'rb') as f: return bytearray(f.read()) # 测试PE文件头 pe_header = read_bytes('notepad.exe')[:64] print(pe_header[:4]) # 输出: b'MZ\x90\x00'

这里返回的是bytearray对象，它比普通的bytes类型更灵活，支持原地修改。不过对于熵值计算来说，两者完全等效。

2.2 从零实现熵值计算函数

自己实现熵值计算其实不到10行代码，但有几个坑得注意：

要处理log(0)的情况（概率为0时直接跳过）
Python的math.log默认以e为底，得指定base=2
字节频次统计可以用collections.Counter提速

这是我的优化版实现：

import math from collections import Counter def calculate_entropy(data): if not data: return 0.0 counter = Counter(data) length = len(data) entropy = 0.0 for count in counter.values(): probability = count / length entropy -= probability * math.log2(probability) return entropy # 测试已知数据 test_data = bytearray([0, 0, 255, 255]) print(calculate_entropy(test_data)) # 输出: 1.0

这个实现比直接遍历0-255快3-5倍，特别是处理大文件时。去年用这个算法分析一个500MB的数据库文件，速度从12秒降到了3秒左右。

3. 实战PE文件分析：识别加壳样本

3.1 正常PE文件的熵值特征

我收集了100个常见Windows系统文件的熵值分布：

记事本.exe：4.72
计算器.exe：5.13
cmd.exe：4.89
explorer.exe：5.24

可以看到，正常PE文件的熵值基本在4.5-5.5之间。这是因为：

代码段（.text）包含大量重复指令
资源段（.rsrc）有很多零填充区域
导入表结构具有规律性

3.2 加壳样本的识别技巧

当遇到这些异常特征时就要警惕了：

熵值 > 6.5（UPX加壳通常在6.2-6.8）
区段名称异常（如"UPX0"、"VMPROTECT"）
区段熵值差异过大（比如.rsrc段熵值7.2而.text段只有4.1）

这里有个检测脚本示例：

def detect_packed_file(file_path): entropy = calculate_entropy(read_bytes(file_path)) if entropy > 6.5: print(f"[!] 高风险文件 (熵值: {entropy:.2f})") return True print(f"[+] 正常文件 (熵值: {entropy:.2f})") return False # 测试已知加壳样本 detect_packed_file('packed_malware.exe') # 输出: [!] 高风险文件 (熵值: 7.34)

3.3 低熵加壳的应对方案

现在有些高级加壳工具会刻意降低熵值来逃避检测。遇到这种情况可以：

计算各段熵值标准差（正常文件通常<0.5）
检查区段大小异常（比如.text段特别大）
结合其他特征（如导入函数数量异常）

4. 高级技巧与性能优化

4.1 使用numpy加速计算

当需要处理大量文件时，原始Python实现可能不够快。这是我用numpy重写的向量化版本：

import numpy as np def fast_entropy(data): counts = np.bincount(np.frombuffer(data, dtype=np.uint8), minlength=256) probs = counts[counts > 0] / len(data) return -np.sum(probs * np.log2(probs))

这个版本比纯Python快20倍以上。在去年的一次批量分析中，处理10,000个文件的时间从45分钟降到了2分钟。

4.2 滑动窗口熵值分析

有时候需要分析文件的局部熵值变化，比如检测是否存在加密数据块。可以这样实现：

def sliding_window_entropy(data, window_size=1024): entropy_list = [] for i in range(0, len(data), window_size): chunk = data[i:i+window_size] entropy_list.append(calculate_entropy(chunk)) return entropy_list # 绘制熵值变化曲线 entropies = sliding_window_entropy(read_bytes('suspicious.dll'))

4.3 多进程并行处理

Python的multiprocessing模块可以充分利用多核CPU：

from multiprocessing import Pool def batch_analyze(file_list): with Pool() as pool: results = pool.map(calculate_entropy, map(read_bytes, file_list)) return dict(zip(file_list, results))

5. 实际项目中的经验教训

在开发一个自动化分析系统时，我遇到过几个典型问题：

大文件内存问题：第一次处理4GB以上的文件时直接内存溢出。后来改用分块读取：

def chunked_entropy(file_path, chunk_size=1024*1024): counts = [0] * 256 total = 0 with open(file_path, 'rb') as f: while chunk := f.read(chunk_size): for byte in chunk: counts[byte] += 1 total += len(chunk) probs = [c/total for c in counts if c > 0] return -sum(p * math.log2(p) for p in probs)

符号链接陷阱：有次分析脚本卡死，发现是遇到了递归符号链接。现在都会先检查：

if os.path.islink(file_path): print(f"跳过符号链接: {file_path}") return None

熵值的局限性：不是所有高熵文件都是恶意的。比如：

压缩包（ZIP/RAR）自然有高熵值
加密的PDF/Word文档
某些游戏资源文件

这时候需要结合文件类型、结构特征等其他信息综合判断。

查看全文

http://www.jsqmd.com/news/571143/

解决PakePlus云打包权限问题完全指南：从诊断到安全配置避坑指南

黑丝空姐-造相Z-Turbo实战：为微信小程序开发提供素材生成服务

2026年好用的高稳定AI视觉扫描仪优选锯厂家，价格贵吗 - mypinpai

别再手动分组了！Pandas分组聚合，让你的数据处理效率起飞

MATLAB bertool实战：从Simulink建模到误码率曲线对比分析

算法优化赋能忍者像素绘卷：提升图像生成速度与质量的实用技巧

学Simulink——基于Simulink的能耗最优PMSM轨迹跟踪与再生制动仿真

AI赋能机器人抓取：在快马平台探索OpenClaw Onboard与强化学习的结合

定制AI视觉扫描仪优选锯厂家怎么选，有哪些品牌值得考虑？ - 工业设备

Claude Code 源码泄露！5 分钟搭建本地离线 AI 程序员，免费无 API 费用

OpenCore Legacy Patcher终极指南：让旧Mac焕发新生的完整解决方案

AI模型交响乐：在快马平台组合多模型打造更聪明的旗博士口播智能体

BilibiliDown高效视频下载全攻略：3分钟解决B站离线观看难题

如何在 Windows 11/10 电脑上永久删除文件

2026年微信公众号编辑器深度测评：8款主流工具实测与选型 - 行业产品测评专家

91160-cli智能预约助手：医疗资源高效获取的全自动化解决方案

快速体验：Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型，5分钟出结果

如何优化网站内容提高排名_站内搜索优化对网站SEO有什么影响

Text-to-SQL 没有答错，但答案不一定是你要的那个

Dota全图透视辅助DOTA全图外挂透视辅助使用人群及五大对战平台现状分析

Linux 与 Shell 自动化运维基础知识记录

全国各省市医院妇产科全面启用《出生医学证明》人证核验系统 - 智能硬件-产品评测

Univer全栈框架：企业级电子表格协作系统的架构设计与技术实现

2026年国内优质的非标链条品牌选哪家，不锈钢链条/非标链条/工业链条/链条，非标链条直销厂家选哪家 - 品牌推荐师

AI绘画新手必看：Nunchaku FLUX.1-dev在ComfyUI中的简单应用

Nunchaku-flux-1-dev与ComfyUI集成：可视化工作流搭建指南

如何通过N-bit ADC的过采样与噪声整形优化SQNR性能

FLUX.2-Klein-9B-NVFP4实战：5分钟学会图片换装，效果超自然

讲讲AI视觉扫描仪优选锯，浙江地区哪家厂家支持个性化定制且口碑好 - myqiye

Ollama助力Llama-3.2-3B落地：快速部署教程与实用功能体验分享