当前位置：首页 > news >正文

MD5是哈希，不是加密，防君子不防小人

news 2026/7/14 22:06:12

一、先把概念说清楚

很多开发者在日常交流中习惯说“MD5加密”，这个说法流传太久，以至于不少人真的以为MD5是一种加密算法。实际上，MD5属于哈希（Hash）算法，也叫散列算法或消息摘要算法。

加密和哈希的本质区别在于：

加密是可逆的。明文通过密钥变成密文，持有密钥的人可以把密文还原成明文。
哈希是不可逆的。任意长度的数据输入后，输出固定长度的摘要，无法从摘要反推出原文。

MD5输出的就是一个128位的哈希值，无论输入是一个字符还是一部电影，最终都变成32个十六进制字符。这个过程信息是有损的，所以不可逆。因此，说MD5是“加密”在术语上是不准确的。准确的叫法是：MD5是一种哈希算法，用来生成消息摘要。

二、MD5当年是用来干什么的

MD5由Ron Rivest在1991年设计，初衷主要有两个应用场景：

一是完整性校验。文件下载后算一下MD5，和官方公布的对比，一致就说明文件在传输过程中没有损坏。这里验证的是“有没有被意外改动”，不是“有没有被恶意篡改”——这点后面会说。

二是密码存储。早期很多系统不存明文密码，而是存密码的MD5哈希值。用户登录时把输入的密码算一遍MD5，和数据库里的对比，对上了就放行。这样就算数据库泄露，攻击者拿到的也不是明文密码，而是一串哈希值。

这两个场景在当年看起来是合理的。MD5计算速度快，实现简单，消耗资源少，在上世纪90年代到本世纪初被广泛使用。

三、问题出在哪里

“防君子不防小人”这个比喻确实贴切。

密码存储：太快反而成了致命伤

先说密码存储。MD5的一个核心特征是快。快本身不是缺点，但在密码存储场景下就成了致命伤。攻击者拿到泄露的哈希值后，可以直接暴力枚举常用密码，一个个算MD5去比对。算法越快，单位时间内能尝试的密码就越多，破解效率就越高。

GPU让MD5彻底失去抵抗力

这个问题在GPU面前被放大了几个数量级。GPU的设计思路和CPU完全不同——CPU擅长串行处理复杂任务，而GPU拥有数千个计算核心，擅长大规模并行计算。MD5这种算法结构简单、计算步骤规整，恰好特别适合在GPU上并行跑。

一台普通电脑的CPU每秒大概能算几百万次MD5。但一张高端消费级显卡，比如英伟达RTX 4090或更新型号，每秒可以计算数百亿甚至上千亿次MD5。这个数量级的差距，意味着攻击者用一张显卡就能在短时间内穷举完所有常见密码组合。

再配合彩虹表这种预计算技术，常见密码的MD5值早就被算好存起来了，直接查表比对即可，几乎零成本。所以用MD5存密码，在今天的硬件条件下，基本上等于明文存储加了一层窗户纸。

针对这个问题，现在密码存储的标准做法是用慢哈希算法，比如bcrypt、Argon2。这类算法故意把计算过程做得很慢，每次哈希消耗可控但不可忽略的时间和资源。对正常用户来说，登录时多花几十毫秒毫无感觉。但对攻击者来说，暴力破解的成本会从“一张显卡跑几小时”变成“一堆显卡跑几百年”。再加上随机加盐，让同样的密码在不同用户那里生成不同的哈希值，彩虹表就彻底失效了。