当前位置：首页 > news >正文

港科大提出Robust-U1：MLLM自我修复受损视觉内容

news 2026/6/23 11:20:29

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

作者：Jiaqi Tang, Jianmin Chen, Youyang Zhai, Wei Wei, Runtao Liu, Mengjie Zhao, Xiangyu Wu, Qingfa Xiao, Qifeng Chen
核心发表机构：The Hong Kong University of Science and Technology、Northwestern Polytechnical University、Northeastern University、Nanjing University of Science and Technology、The Hong Kong University of Science and Technology (Guangzhou)
论文链接：arXiv:2606.08063v1
发布于：arXiv 预印本（cs.CV）

| :— | :— | :— | :— | :— |
|Ours|Robust-U1|0.7353 / 0.7329 / 0.6768|0.7067 / 0.7164 / 0.6934|0.8272 / 0.8059 / 0.7640|0.7398|
| Robust MLLM | Robust-R1 | 0.6529 / 0.6391 / 0.6097 | 0.4914 / 0.4909 / 0.4980 | 0.4068 / 0.3781 / 0.3484 | 0.5017 |
| General MLLM | BAGEL | 0.7176 / 0.6584 / 0.5793 | 0.6497 / 0.6127 / 0.6150 | 0.4685 / 0.4633 / 0.4288 | 0.5770 |

对抗性破坏下的鲁棒性。在MMMB、MMStar、RealWorldQA三个基准上，Robust-U1在100%破坏强度下均达到最佳或次佳结果。例如在MMMB上，Robust-U1在100%退化时得分为83.18，远超BAGEL的78.48和Robust-R1的75.35。更重要的是，从干净输入到100%退化，Robust-U1仅下降1.57分，而BAGEL下降3.44分，Robust-R1下降6.06分，充分证明了自我恢复机制在重度退化下的有效性。

恢复质量的可视化对比。下图展示了模型在不同训练阶段所恢复图像的视觉质量逐步提升的过程。从带噪声的原始输入（BAGEL直接输出）开始，经过SFT阶段和双重奖励RL阶段，最终Robust-U1恢复出的图像在清晰度、结构和语义正确性上都接近真实干净图像。

与外部恢复模块的对比。将Robust-U1与“外部恢复+强判别式MLLM”管道进行对比，其中外部基线包括全能恢复模型DFPIR、去模糊模型EVSSM、去噪模型MambaIRv2、去雾模型BiLaLoRA。Robust-U1在R-Bench上以0.7398的总分大幅领先最佳外部基线的0.5511。分析表明，原因在于外部模块的优化目标是感知质量而非下游理解任务，而Robust-U1通过双重奖励和多模态推理使恢复过程与下游任务对齐。

用户研究。25名具备计算机视觉背景的参与者在15个随机样本上进行双向盲比。Robust-U1在语义忠实度上获得92.3%的偏好率（BAGEL仅5.6%），在整体视觉质量上获得85.7%的偏好率（BAGEL仅10.1%），自动指标的提升转化为了感知层面的显著增益。

4.3 消融实验 / Ablation Study

各阶段贡献消融。下表展示了逐步训练带来的收益。SFT阶段将PSNR从14.37提升至20.88，但R-Bench增益很小（+0.0204），表明“视觉更干净”并不足够。RL阶段的像素级奖励进一步提升了结构质量（PSNR: 20.88→21.45），语义级奖励提升了感知质量（LPIPS: 0.3444→0.3233），组合后的全模型在三项指标上达到最佳平衡。更关键的是，RL阶段虽只带来PSNR微小提升（≤0.6dB），却带来巨大的R-Bench提升（~0.13），表明恢复只有在与下游任务语义对齐时才能真正支持推理。

方法	PSNR↑	SSIM↑	LPIPS↓	R-Bench
BAGEL	14.37	0.4722	0.5092	0.5770
+SFT	20.88	0.6135	0.3444	0.5974
+RL w.R pix \mathcal{R}_{\text{pix}}Rpix	21.45	0.6311	0.3323	0.7289
+RL w.R sem \mathcal{R}_{\text{sem}}Rsem	21.45	0.6312	0.3233	0.7236
Ours	21.49	0.6314	0.3223	0.7398

各奖励机制的贡献消融。移除像素级奖励后，总体分从0.7398降至0.7257，在需要精准视觉理解的MCQ任务上下降最明显。移除语义级奖励后，总体分降至0.7236，在高退化强度下性能下降最为严重（MCQ高从0.6768降至0.6220），表明当退化严重时，确保语义正确性至关重要。下图直观展示了各奖励的作用：像素级奖励减少像素伪影，语义级奖励确保内容正确。

多模态推理的贡献。移除多模态推理（即只使用恢复图像进行推理）后，总体分从0.7398降至0.6623，验证了联合使用退化与恢复图像进行推理的重要性。

与“检测-恢复”变体的推理成本对比。完整Robust-U1管道因50步去噪循环导致延迟55.0秒（R-Bench得分0.7398），而检测-恢复变体（触发式恢复）延迟24.6秒（得分0.7082），标准MLLM（无恢复）延迟1.8秒（得分0.6204）。这清晰展示了鲁棒性-成本权衡，检测-恢复变体是更实用的选择。

始终开启恢复对干净输入的影响。在干净输入下，恢复带来微小但一致的提升（+0.0044，0.7821→0.7865），而在退化输入下带来巨大提升（+0.1793，0.5605→0.7398）。这表明始终开启恢复是安全的默认选择。

五、相关工作 / Related Work

隐式鲁棒适应（Implicit Robust Adaptation）。以TeCoA、Robust CLIP、Robust LLaVA为代表的方法，通过在视觉编码器内对齐被破坏和干净图像的特征分布来提升鲁棒性。这些方法本质上是对输入空间进行平滑处理，使模型对扰动不敏感。然而，作为黑盒方法，它们缺乏可解释性，且无法显式地恢复视觉细节。Robust-U1与之形成对比：它提供了显式的、可量化的恢复过程，使模型能够直接观察恢复后的视觉内容。

白盒文本推理（White-box Text-based Reasoning）。Robust-R1是最新代表，它通过明确的文本链描述破坏类型和语义影响来增强推理的可解释性。然而，文本描述是对视觉信息的严重压缩，无法恢复丢失的像素级细节。例如，面对一张严重失真的交通标志图像，文本推理可能错误地推断形状而误判方向，而Robust-U1通过像素级恢复能够准确保留原始的箭头方向。实验数据也证明了这一点：Robust-R1在R-Bench总体仅为0.5017，远低于Robust-U1的0.7398。

“用图像思考”范式（Think with Images）。如DeepEyes、Thinking with Generated Images等工作，通过生成中间视觉表征来增强推理。Robust-U1继承并扩展了这一范式，将生成能力特化为针对被破坏图像的自我恢复。不同于生成“想象中”的视觉内容来帮助推理，自我恢复是生成“视觉真相”以修复被破坏的输入，因此更适合鲁棒理解任务。

六、局限性与展望 / Limitations & Future Work

局限性。第一，恢复质量存在理论上界。恢复图像的质量受底层统一MLLM生成能力的限制，双重奖励RL虽有改善，但在高度复杂或严重破坏（大量关键信息丢失）的情况下仍可能失败。当前工作聚焦常见真实世界破坏，对罕见或对抗性特定扭曲的性能尚未充分探索。第二，对配对训练数据的依赖。SFT和RL阶段均需要（被破坏图像，干净图像）配对数据。虽然可通过ImageNet-C等合成生成，但合成破坏与真实破坏之间的域差异可能限制泛化。对于专业领域（工业缺陷检测、遥感、医学成像），获取大规模真实破坏配对数据尤为困难。无参考奖励方案的初步实验（使用图文一致性奖励）表明，该方法性能低于配对标定监督，说明配对标定监督仍是最有效的。第三，推理延迟较高。完整管道因50步去噪循环导致延迟高达55秒，虽然检测-恢复变体可缓解此问题，但这仍是在延迟敏感场景中部署的障碍。

未来工作。首先，探索高效的自恢复架构，如轻量化恢复模块、知识蒸馏、条件生成机制，以减少去噪步骤，应对推理-成本权衡。其次，发展与损坏特定先验的集成方法，将数据驱动恢复与基于物理或统计的损坏模型结合，如去模糊结合估计模糊核、去噪结合噪声模型，尤其适用于医学成像、遥感等专业应用。第三，将框架扩展至视频与时序域，处理时间一致性和运动动态，实现雨、雾、低光等恶劣条件下的鲁棒视频理解。最后，创建更全面的基准，覆盖多种破坏类型、严重程度和多模态任务，强调真实自然发生的破坏而非仅合成破坏。

七、总结 / Conclusion

本文提出了Robust-U1，一个赋予多模态大语言模型显式视觉自我恢复能力的鲁棒理解框架。通过精心设计的三阶段训练流程——监督微调建立基础恢复能力、强化学习以双重奖励对齐像素级和语义级质量、多模态推理联合利用被破坏与恢复图像——Robust-U1从根本上超越了现有隐式特征对齐和文本推理方法的局限。在真实世界破坏基准R-Bench上，该方法以0.7398的总分大幅领先现有最强鲁棒方法Robust-R1（0.5017）和基础模型BAGEL（0.5770）。在对抗性破坏下的通用VQA基准上，Robust-U1同样保持了最佳的鲁棒性。系统性的消融实验证实，高质量的视觉恢复直接提升推理性能，且恢复之所以有效是因为与下游任务对齐，而非仅仅提升像素级质量。这些结果确立了视觉自我恢复作为实现鲁棒视觉理解的一个关键机制，为多模态大语言模型在开放、不可控环境中的可靠部署提供了新的范式。

原文摘要:Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.

PDF链接:https://arxiv.org/pdf/2606.08063v1