当前位置：首页 > news >正文

【ICLR26-金连文-华南理工】OMNI-IML: 迈向统一的可解释图像篡改定位

news 2026/7/7 3:02:37

文章：OMNI-IML: TOWARDS UNIFIED INTERPRETABLE IMAGE MANIPULATION LOCALIZATION

代码：暂无

单位：华南理工

一、问题背景

现有Image Manipulation Localization(IML)模型大多依赖任务特定设计，仅能在目标任务上表现良好，跨任务适应性极差。若对多个IML任务进行联合训练，又会导致所有任务的性能显著下降，比如HiFi-Net就需为自然图像和人脸图像分别设置不同参数。

造成这一问题的核心原因有两点：一是现有方法的架构设计、训练策略等高度依赖具体任务，例如适用于自然图像的边缘异常增强模块，在边缘特征不明显的文档图像上几乎失效；二是不同IML任务的篡改特征差异巨大，统一模型难以区分这些多样化的篡改线索，容易产生混淆。

同时，现有可解释IML方案缺乏统一基准，尤其在文档、场景文本和未裁剪深度伪造图像上表现不佳，且标注质量受图像复杂度影响较大，多篡改区域或弱篡改特征场景下易出现描述错误。

二、方法创新

为解决上述问题，研究团队提出了Omni-IML通用模型和Omni-273k数据集，核心创新包括：

1. 三大核心模块实现跨任务统一定位

模态门编码器（Modal Gate Encoder）：自动分析输入图像特征，自适应选择纯视觉或视觉+频率的最优编码模态，避免单一模态带来的局限性。
异常增强模块（Anomaly Enhancement）：通过新颖的框监督设计，增强篡改区域特征，抑制联合训练中的特征噪声，提升跨领域特征提取能力。
动态权重解码器（Dynamic Weight Decoder）：根据输入图像特性，自适应选择最优解码器滤波器，应对不同任务的多样化篡改特征。

2. 可解释性提升方案

链式思维标注 pipeline：通过“实例级篡改目标识别→聚焦式特征描述→自我检查”三步流程，生成高质量自然语言标注，解决多目标、弱特征场景下的标注难题。
解释模块：将篡改定位掩码与原始图像融合构建视觉参考提示，输入多模态大语言模型，精准描述篡改区域的内容、位置及特征异常。

3. Omni-273k数据集

涵盖自然图像、文档、人脸、场景文本四大IML领域，包含27.3万余个样本，其中真实世界手动篡改样本是现有数据集的20倍。采用结构化JSON标注格式，支持细粒度、合理的模型评估。

三、实验结果

在四大主要IML任务上的广泛实验表明：

定位性能：Omni-IML在所有任务上均实现当前最优性能，自然图像IML平均IoU达0.612，文档IML平均IoU达0.745，人脸IML IoU达0.923，场景文本IML平均IoU达0.610。联合训练时性能下降极小，文档IML任务IoU仅下降0.8个百分点，远优于传统方法7个百分点的下降幅度。

解释性能：借助Omni-273k数据集和视觉参考提示，模型在篡改内容识别、位置描述、特征异常解释等方面表现优异，Qwen2.5-VL 7B模型经微调后，文档篡改文本识别准确率从0.312提升至0.653。
鲁棒性：在图像缩放、模糊、JPEG压缩等失真场景下，仍保持强劲性能，在NIST16数据集上的AUC值达0.918，显著优于现有方法。

四、优势与局限

优势

通用性强：首个能在四大核心IML任务上同时实现最优性能的通用模型，无需任务特定微调。
可解释性佳：通过结构化数据集和专用解释模块，能以自然语言清晰描述篡改细节，提升结果可信度。
实用性高：联合训练性能稳定，模型复杂度低于维护多个单任务模型，且支持多篡改区域、弱篡改特征等实际常见场景。

局限

模型规模相对较大，定位模块参数量为152M，解释模块依赖多模态大语言模型，整体计算效率有待提升，后续需进一步优化模型大小和推理速度。

五、一句话总结

Omni-IML通过三大核心模块、链式思维标注 pipeline 和高质量数据集，实现了跨领域、高性能、可解释的图像篡改定位，为实际场景中的图像真实性验证提供了高效解决方案。

http://www.jsqmd.com/news/339910/

相关文章：

世毫九实验室简介·方见华致各界书

QT4C-Windows自动化测试框架正式开源

SAM 3 图像和视频

python三大开发框架django、 flask 和 fastapi 对比

测试用例--等价类划分、边界值法

Chrome 外网访问本地 Lodop 打印服务完整解决方案

Sam3 ONNX 导出与推理指南

测试人如何高效地设计自动化测试框架？

一个 tomcat 下如何部署多个项目？附详细步骤

微信小程序怎么测试

【免费分享】HP AMP 125 打印机驱动安装包下载分享与安装使用教程（Windows）

Spring httpMessageConverter（四）

阿里软件测试工程师推荐｜自动化测试——HTTP网络协议简介

一文2500字Robot Framework自动化测试框架超强教程

Python：代码对象

如何使用postman做接口测试

curl-发送请求和 tcpdump与wireshark的介绍

2025提示注入防护技术白皮书解读：提示工程架构师必须跟进的3大方向

人力资源社会保障部办公厅关于2026年度专业技术人员职业资格考试工作计划及有关事项的通知

金蝶云星空与Clover POS系统数据互通对接

大数据领域如何实现高效数据存储

Wireshark抓包：详解TCP四次挥手报文内容

Jmeter接口测试流程详解

强烈建议立即搞个软考证！（政策风口）

云知声进行配售：募资3亿港元主要用于山海大模型研发

Siri 终于要“死”了？苹果 iOS 27 惊天曝光：这次不仅是更新，而是换脑！

题目1434:蓝桥杯历届试题-回文数字

2026 素材趋势报告：为什么“素材工程能力”，正在决定品牌的投放天花板？

生信复现素材：Science子刊演示单细胞在分娩机制研究中的多组学整合方案

[RK3588 Android12]设置系统默认不休眠（不自动熄灭屏幕）