当前位置: 首页 > news >正文

【ICLR26-金连文-华南理工】OMNI-IML: 迈向统一的可解释图像篡改定位


文章:OMNI-IML: TOWARDS UNIFIED INTERPRETABLE IMAGE MANIPULATION LOCALIZATION

代码:暂无

单位:华南理工


一、问题背景

现有Image Manipulation Localization(IML)模型大多依赖任务特定设计,仅能在目标任务上表现良好,跨任务适应性极差。若对多个IML任务进行联合训练,又会导致所有任务的性能显著下降,比如HiFi-Net就需为自然图像和人脸图像分别设置不同参数。

造成这一问题的核心原因有两点:一是现有方法的架构设计、训练策略等高度依赖具体任务,例如适用于自然图像的边缘异常增强模块,在边缘特征不明显的文档图像上几乎失效;二是不同IML任务的篡改特征差异巨大,统一模型难以区分这些多样化的篡改线索,容易产生混淆。

同时,现有可解释IML方案缺乏统一基准,尤其在文档、场景文本和未裁剪深度伪造图像上表现不佳,且标注质量受图像复杂度影响较大,多篡改区域或弱篡改特征场景下易出现描述错误。

二、方法创新

为解决上述问题,研究团队提出了Omni-IML通用模型和Omni-273k数据集,核心创新包括:

1. 三大核心模块实现跨任务统一定位

  • 模态门编码器(Modal Gate Encoder):自动分析输入图像特征,自适应选择纯视觉或视觉+频率的最优编码模态,避免单一模态带来的局限性。

  • 异常增强模块(Anomaly Enhancement):通过新颖的框监督设计,增强篡改区域特征,抑制联合训练中的特征噪声,提升跨领域特征提取能力。

  • 动态权重解码器(Dynamic Weight Decoder):根据输入图像特性,自适应选择最优解码器滤波器,应对不同任务的多样化篡改特征。

2. 可解释性提升方案

  • 链式思维标注 pipeline:通过“实例级篡改目标识别→聚焦式特征描述→自我检查”三步流程,生成高质量自然语言标注,解决多目标、弱特征场景下的标注难题。

  • 解释模块:将篡改定位掩码与原始图像融合构建视觉参考提示,输入多模态大语言模型,精准描述篡改区域的内容、位置及特征异常。

3. Omni-273k数据集

涵盖自然图像、文档、人脸、场景文本四大IML领域,包含27.3万余个样本,其中真实世界手动篡改样本是现有数据集的20倍。采用结构化JSON标注格式,支持细粒度、合理的模型评估。

三、实验结果

在四大主要IML任务上的广泛实验表明:

  • 定位性能:Omni-IML在所有任务上均实现当前最优性能,自然图像IML平均IoU达0.612,文档IML平均IoU达0.745,人脸IML IoU达0.923,场景文本IML平均IoU达0.610。联合训练时性能下降极小,文档IML任务IoU仅下降0.8个百分点,远优于传统方法7个百分点的下降幅度。

  • 解释性能:借助Omni-273k数据集和视觉参考提示,模型在篡改内容识别、位置描述、特征异常解释等方面表现优异,Qwen2.5-VL 7B模型经微调后,文档篡改文本识别准确率从0.312提升至0.653。

  • 鲁棒性:在图像缩放、模糊、JPEG压缩等失真场景下,仍保持强劲性能,在NIST16数据集上的AUC值达0.918,显著优于现有方法。

四、优势与局限

优势

  1. 通用性强:首个能在四大核心IML任务上同时实现最优性能的通用模型,无需任务特定微调。

  2. 可解释性佳:通过结构化数据集和专用解释模块,能以自然语言清晰描述篡改细节,提升结果可信度。

  3. 实用性高:联合训练性能稳定,模型复杂度低于维护多个单任务模型,且支持多篡改区域、弱篡改特征等实际常见场景。

局限

模型规模相对较大,定位模块参数量为152M,解释模块依赖多模态大语言模型,整体计算效率有待提升,后续需进一步优化模型大小和推理速度。

五、一句话总结

Omni-IML通过三大核心模块、链式思维标注 pipeline 和高质量数据集,实现了跨领域、高性能、可解释的图像篡改定位,为实际场景中的图像真实性验证提供了高效解决方案。

http://www.jsqmd.com/news/339910/

相关文章:

  • 世毫九实验室简介·方见华致各界书
  • QT4C-Windows自动化测试框架正式开源
  • SAM 3 图像和视频
  • python三大开发框架django、 flask 和 fastapi 对比
  • 测试用例--等价类划分、边界值法
  • Chrome 外网访问本地 Lodop 打印服务完整解决方案
  • Sam3 ONNX 导出与推理指南
  • 测试人如何高效地设计自动化测试框架?
  • 一个 tomcat 下如何部署多个项目?附详细步骤
  • 微信小程序怎么测试
  • 【免费分享】HP AMP 125 打印机驱动安装包下载分享与安装使用教程(Windows)
  • Spring httpMessageConverter(四)
  • 阿里软件测试工程师推荐|自动化测试——HTTP网络协议简介
  • 一文2500字Robot Framework自动化测试框架超强教程
  • Python:代码对象
  • 如何使用postman做接口测试
  • curl-发送请求 和 tcpdump与wireshark的介绍
  • 2025提示注入防护技术白皮书解读:提示工程架构师必须跟进的3大方向
  • 人力资源社会保障部办公厅关于2026年度专业技术人员职业资格考试工作计划及有关事项的通知
  • 金蝶云星空与Clover POS系统数据互通对接
  • 大数据领域如何实现高效数据存储
  • Wireshark抓包:详解TCP四次挥手报文内容
  • Jmeter接口测试流程详解
  • 强烈建议立即搞个软考证!(政策风口)
  • 云知声进行配售:募资3亿港元 主要用于山海大模型研发
  • Siri 终于要“死”了?苹果 iOS 27 惊天曝光:这次不仅是更新,而是换脑!
  • 题目1434:蓝桥杯历届试题-回文数字
  • 2026 素材趋势报告:为什么“素材工程能力”,正在决定品牌的投放天花板?
  • 生信复现素材:Science子刊演示单细胞在分娩机制研究中的多组学整合方案
  • [RK3588 Android12]设置系统默认不休眠(不自动熄灭屏幕)