当前位置: 首页 > news >正文

Meta、Google、Adobe隐形水印算法大翻车!误报率远高于宣称

黑客与用户的不同视角

用户看到的是甜甜圈,黑客看到的是漏洞。这里有主页、博客、周边商品等相关信息。Neal Krawetz 博士撰写了 The Hacker Factor Blog,可在 Mastodon 上关注他。

实用工具集合

这里有不少实用工具,像 FotoForensics 可测试自己的照片,Hintfo 能查看元数据,Gender Guesser 可通过文字进行判断。

各类相关链接

有安全相关的互联网风暴中心、Krebs on Security、Bruce Schneier;图像相关的 Photo Stealers、尴尬家庭照片、Unsplash;新闻辟谣的 iMediaEthics、Poynter;政治辟谣的 FactCheck、PolitiFact;其他辟谣的 Snopes、Math with Bad Drawings。

日历与存档信息

展示了 2026 年 7 月的日历,还有存档信息,包括 2026 年 7 月、6 月、5 月的文章存档,以及近期文章和更早文章的链接。

订阅源与分类情况

提供了 RSS 1.0 和 RSS 2.0 订阅源。分类众多,有会议、版权、金融、取证等各类。

Meta隐形水印算法研究失望开场

2026 年 6 月 30 日,对隐形水印算法的研究快结束了,结果却让人失望透顶。现代基于 AI 的算法没达到宣称效果,还犯了根本性错误。之前评估过 Google 的 SynthID 和 Adobe 的 TrustMark 算法,它们都号称能有准确结果,但实际并非如此。Google 宣称真阳性率超 99.97%,实际概率接近二十分之一,且 SynthID 专有,Gemini 还会产生错误结果。Adobe 的 TrustMark 号称比特准确率超 96%,实际误报率 10% - 20%,基本没啥用。

Meta的“Stable Signature”算法剖析

这次评估了 Meta 的“Stable Signature”算法,它会将 48 位序列编码到图片视觉内容中。传统隐形水印藏在微妙位置,会重复嵌入数据和包含纠错码,但可能产生可见失真。现代方法用 AI 系统减少失真。Stable Signature 对二进制数据编码,用 AI 模型决定隐藏位置,AI 解码器提取数据。不同基于 AI 的水印系统减少噪声的技术不同,Google 的 SynthID 存储少量比特大量重复,Adobe 的 TrustMark 用 BCH 算法,Meta 的 Stable Signature 用汉明距离。Meta 论文称 48 位均匀分布,误报率低于百万分之一,但实际真的如此吗?

实证测试结果大相径庭

实验假设一切按宣称的有效,想可靠识别 Meta 相关隐形水印,但不知道他们用的序列,也不确定是否因不同来源用多个代码。从 FotoForensics 取了 2026 年 5 月上传的前 10000 张独特图像测试。结果呢,没发现与 Meta 图像相关的集群,说明 Meta 没使用 GitHub 上发布的 Stable Signature 水印软件。还发现 25 张不同图片有完全相同的比特序列,按百万分之一的碰撞率,这不该发生啊!这些图片来源不同,且都有深色背景和明亮物体,表明 Stable Signature 更像感知哈希。以这 25 张图片为中心或一部分,按 6 位汉明距离,分别有 356 张和 450 张相似图片,这个大集群占未筛选图像数据集的 4.5%。而且还发现超过 60 个集群,每个集群在汉明距离为 6 时包含超 10 张图片,这和百万分之一的碰撞率完全不符啊!

独立分析找出问题根源

重新查看 Meta 研究论文,发现他们测试系统时假设 48 位相互独立且均匀分布,但他们用神经网络生成比特,这些比特其实是相关的。论文假设二项分布,计算了不同汉明距离阈值下随机图片偶然匹配的概率。Meta 论文称用 7 位汉明距离,误报率低于百万分之一,但实证测试在汉明距离为 6 甚至 0 时就出现碰撞了。

核心问题:理论与实证差异巨大

理论概率和实证测试差异明显。Meta 论文假设 48 位独立,未加水印图像应均匀分布,但神经网络会映射非线性流形,输出比特不独立。绘图结果显示有明显的集群、结构和空洞,Meta 的 Stable Signature 实现生成的数据没通过独立性测试。最大集群代表零信号偏差,按理论 6 位错误碰撞率约 2000 万分之一,实际 10000 张图片中有 450 张在 6 位以内,仅 ZSB 错误率约 22 分之一。加上其他至少含 10 张图片的集群,2327 张图片处于各种集群中,错误率约四分之一。用 AI 术语说,这是典型的深度神经网络的表示崩溃或结构偏差。而且,按“百万分之一”说法,10000 张测试图像中有 5237 张处于包含 2 张或更多图片的集群中,超过 50% 的可能性会出现误报匹配。

不随机的数学证明

把 2026 年 5 月的前 10000 张图像输入 Meta 代码,去除不支持格式后得到 9847 张可用图片。用 NIST 统计测试套件中的单比特测试和卡方独立性测试评估数据随机性。单比特测试显示处理的总比特数为 472656 位,观察到 1 的数量为 266419,0 的数量为 206237,预期数量各为 236328。卡方统计量为 7632.28,p 值无限接近 0.0,说明不是随机或独立的,水印提取倾向于产生 1。卡方序列独立性测试显示相邻比特转移概率不符合独立假设,卡方值为 12205.9,p 值为 0.0,也不是随机或独立的。还有静态尾部模式,48 位序列末尾大量以 ...111101 或 ...00111101 结尾,第 46、47、48 位有很高的固定值比例。结构聚类方面,某些比特列互信息得分高,知道第 12 位能超 80% 准确率预测第 28 位。Meta 研究人员计算准确率时犯了根本性错误,误报匹配概率接近四分之一,他们也承认提取的比特不独立,但发表的误报分析仍依赖比特独立假设。

普遍存在的统计学错误

知道 Meta 准确率被夸大后,回顾 Google 和 Adobe 关于水印的论文,发现他们也犯了同样的“比特独立”错误。Google 的 SynthID 论文假设均匀分布,过度关注真阳性率,不涉及误报分布。Adobe 的 TrustMark 论文假设独立性,把每个比特位置视为独立伯努利试验,且未测试“随机”水印是否相似。这个统计学入门级错误在三种隐形水印技术中都存在,检测结果非常不可靠。值得一提的是,Meta 后来开发了 Pixel Seal 算法,增加了有效载荷,但底层方法仍用神经网络映射,使用更多比特只会加剧缺陷。

算法潜在用途待察

算法可以有其用途。例如,Meta、Google 和 Adobe 正在用他们。(此处原文未完整表述,只能按原文输出)

http://www.jsqmd.com/news/1132088/

相关文章:

  • Visual C++运行库终极解决方案:一键修复Windows系统兼容性问题
  • 前端day4
  • IR2104 半桥 BUCK 电路 PCB 布局:3 个关键布线规则解决开关尖峰与振荡
  • c#基础内容:泛型、线程、委托、流
  • 早上,邮递员送来的时候,我还在梦中。
  • 经典题目(2):最长公共子序列;最长公共子串
  • 真的领到了这张8元现金券
  • 2026 内容创作类 AI 赛道全新红利(分短视频、图文绘画、AI 音乐、通用自动化四大板块,全部是今年落地可变现风口)
  • OpenCode × DeepSeek 配置方案迭代记:砍砍补补,越来越好用
  • Ubuntu系统向日葵远程桌面配置指南
  • iNeuOS工业互联网操作系统
  • 大部分管理信息系统(MIS)都少不了员工
  • 昆仑芯的“第三条路”
  • Week7:卷积神经网络、深度网络原理与循环神经网络专题
  • Linux find 命令性能深度解析:对比 locate 与 fd 的 3 大场景实测
  • Unity AssetBundle 加密方案对比:3种主流方法性能开销与安全性实测
  • ChatModel 构建 LLM 驱动的 Java 应用
  • Edge/Chrome 开发者工具获取京东 Cookie:3 步定位 pt_key/pt_pin 的完整流程
  • 折腾了两周Codex,整理了一份从安装到实战的避坑指南
  • Agent Memory最新综述:长上下文和RAG之后,还缺什么?
  • 张家界口碑黄金铂金回收白银回收实体老店
  • C语言学习笔记20260705-基于栈的排列重排——求字典序最大的合法出栈序列
  • DB2 11.5 Windows 10 安装避坑 3 要点:家庭版系统安全性与驱动下载
  • 机器人产业演进逻辑与商业化落地全景攻略
  • 从演示到生产:AI 编程工具链在大模型应用落地中的工程化实践
  • 知识加工模块与博客工厂模块的状态重新定义
  • 一年之后,重新理解 AI 编程
  • 2026北京活动策划公司口碑榜与政企会务优选指南
  • SQL注入编码绕过技术详解:从URL编码到宽字节注入
  • 【嵌入式C语言】07.二级指针+函数