当前位置：首页 > news >正文

Meta、Google、Adobe隐形水印算法大翻车！误报率远高于宣称

news 2026/7/6 2:57:45

黑客与用户的不同视角

用户看到的是甜甜圈，黑客看到的是漏洞。这里有主页、博客、周边商品等相关信息。Neal Krawetz 博士撰写了 The Hacker Factor Blog，可在 Mastodon 上关注他。

实用工具集合

这里有不少实用工具，像 FotoForensics 可测试自己的照片，Hintfo 能查看元数据，Gender Guesser 可通过文字进行判断。

各类相关链接

有安全相关的互联网风暴中心、Krebs on Security、Bruce Schneier；图像相关的 Photo Stealers、尴尬家庭照片、Unsplash；新闻辟谣的 iMediaEthics、Poynter；政治辟谣的 FactCheck、PolitiFact；其他辟谣的 Snopes、Math with Bad Drawings。

日历与存档信息

展示了 2026 年 7 月的日历，还有存档信息，包括 2026 年 7 月、6 月、5 月的文章存档，以及近期文章和更早文章的链接。

订阅源与分类情况

提供了 RSS 1.0 和 RSS 2.0 订阅源。分类众多，有会议、版权、金融、取证等各类。

Meta隐形水印算法研究失望开场

2026 年 6 月 30 日，对隐形水印算法的研究快结束了，结果却让人失望透顶。现代基于 AI 的算法没达到宣称效果，还犯了根本性错误。之前评估过 Google 的 SynthID 和 Adobe 的 TrustMark 算法，它们都号称能有准确结果，但实际并非如此。Google 宣称真阳性率超 99.97%，实际概率接近二十分之一，且 SynthID 专有，Gemini 还会产生错误结果。Adobe 的 TrustMark 号称比特准确率超 96%，实际误报率 10% - 20%，基本没啥用。

Meta的“Stable Signature”算法剖析

这次评估了 Meta 的“Stable Signature”算法，它会将 48 位序列编码到图片视觉内容中。传统隐形水印藏在微妙位置，会重复嵌入数据和包含纠错码，但可能产生可见失真。现代方法用 AI 系统减少失真。Stable Signature 对二进制数据编码，用 AI 模型决定隐藏位置，AI 解码器提取数据。不同基于 AI 的水印系统减少噪声的技术不同，Google 的 SynthID 存储少量比特大量重复，Adobe 的 TrustMark 用 BCH 算法，Meta 的 Stable Signature 用汉明距离。Meta 论文称 48 位均匀分布，误报率低于百万分之一，但实际真的如此吗？

实证测试结果大相径庭

实验假设一切按宣称的有效，想可靠识别 Meta 相关隐形水印，但不知道他们用的序列，也不确定是否因不同来源用多个代码。从 FotoForensics 取了 2026 年 5 月上传的前 10000 张独特图像测试。结果呢，没发现与 Meta 图像相关的集群，说明 Meta 没使用 GitHub 上发布的 Stable Signature 水印软件。还发现 25 张不同图片有完全相同的比特序列，按百万分之一的碰撞率，这不该发生啊！这些图片来源不同，且都有深色背景和明亮物体，表明 Stable Signature 更像感知哈希。以这 25 张图片为中心或一部分，按 6 位汉明距离，分别有 356 张和 450 张相似图片，这个大集群占未筛选图像数据集的 4.5%。而且还发现超过 60 个集群，每个集群在汉明距离为 6 时包含超 10 张图片，这和百万分之一的碰撞率完全不符啊！

独立分析找出问题根源

重新查看 Meta 研究论文，发现他们测试系统时假设 48 位相互独立且均匀分布，但他们用神经网络生成比特，这些比特其实是相关的。论文假设二项分布，计算了不同汉明距离阈值下随机图片偶然匹配的概率。Meta 论文称用 7 位汉明距离，误报率低于百万分之一，但实证测试在汉明距离为 6 甚至 0 时就出现碰撞了。

核心问题：理论与实证差异巨大

理论概率和实证测试差异明显。Meta 论文假设 48 位独立，未加水印图像应均匀分布，但神经网络会映射非线性流形，输出比特不独立。绘图结果显示有明显的集群、结构和空洞，Meta 的 Stable Signature 实现生成的数据没通过独立性测试。最大集群代表零信号偏差，按理论 6 位错误碰撞率约 2000 万分之一，实际 10000 张图片中有 450 张在 6 位以内，仅 ZSB 错误率约 22 分之一。加上其他至少含 10 张图片的集群，2327 张图片处于各种集群中，错误率约四分之一。用 AI 术语说，这是典型的深度神经网络的表示崩溃或结构偏差。而且，按“百万分之一”说法，10000 张测试图像中有 5237 张处于包含 2 张或更多图片的集群中，超过 50% 的可能性会出现误报匹配。

不随机的数学证明

把 2026 年 5 月的前 10000 张图像输入 Meta 代码，去除不支持格式后得到 9847 张可用图片。用 NIST 统计测试套件中的单比特测试和卡方独立性测试评估数据随机性。单比特测试显示处理的总比特数为 472656 位，观察到 1 的数量为 266419，0 的数量为 206237，预期数量各为 236328。卡方统计量为 7632.28，p 值无限接近 0.0，说明不是随机或独立的，水印提取倾向于产生 1。卡方序列独立性测试显示相邻比特转移概率不符合独立假设，卡方值为 12205.9，p 值为 0.0，也不是随机或独立的。还有静态尾部模式，48 位序列末尾大量以 ...111101 或 ...00111101 结尾，第 46、47、48 位有很高的固定值比例。结构聚类方面，某些比特列互信息得分高，知道第 12 位能超 80% 准确率预测第 28 位。Meta 研究人员计算准确率时犯了根本性错误，误报匹配概率接近四分之一，他们也承认提取的比特不独立，但发表的误报分析仍依赖比特独立假设。

普遍存在的统计学错误

知道 Meta 准确率被夸大后，回顾 Google 和 Adobe 关于水印的论文，发现他们也犯了同样的“比特独立”错误。Google 的 SynthID 论文假设均匀分布，过度关注真阳性率，不涉及误报分布。Adobe 的 TrustMark 论文假设独立性，把每个比特位置视为独立伯努利试验，且未测试“随机”水印是否相似。这个统计学入门级错误在三种隐形水印技术中都存在，检测结果非常不可靠。值得一提的是，Meta 后来开发了 Pixel Seal 算法，增加了有效载荷，但底层方法仍用神经网络映射，使用更多比特只会加剧缺陷。