当前位置：首页 > news >正文

JarvisIR

news 2026/7/22 23:22:17

一、第一页

1、现实世界中的恶略天气表现出耦合的退化（雨天、雪天、雾天等等往往还伴随着雨滴、模糊、光晕等）。

2、不良天气图像复原方法主要有三种：任务专用法、一体化方法、整合多种专用模型。
1）任务专用法：针对于特定的退化类型，且需要特定退化类型的先验知识，而真实世界的退化是未知且耦合的。
2）一体化方法：需要以监督方式对合成数据集进行训练，这与真实世界数据存在显著的差距。
3）整合多种专用模型：该策略对任务顺序高度敏感，顺序的微小改变可能造成性能显著下降。

3、我们知道，大型语言模型（LLM）在推理、决策和与环境的交互方面很出色，我们同样可以将视觉语言模型（VLM）充当控制器来管理公开可用的专门恢复模型，自主规划任务，并选择模型来促进综合恢复系统的开发。
但VLM需要大量的配对数据。在现实世界的场景中，虽然存在大量真实的退化数据，但缺乏相应的标签阻碍了监督微调方法的实施，为了解决这个问题并利用大规模的未标记数据，我们设计了一个基于人类反馈的微调框架，允许以无监督的方式训练VLM。

二、第二页

1、JarvisIR是一个VLM驱动的Agent，集成了多个专用修复模型。JarvisIR可以自主管理和协调多个专用恢复模型，以解决耦合的天气退化问题。

2、CleanBench数据集：包括15w个合成数据集和8w个CleanBench-Real。每一组数据都是一个三元组“用户指令-退化图像-修复响应”。

三、下面详细说一下数据集和训练逻辑：

首先是合成数据集部分：

退化图像：
1）先从公开数据集里挑“高质量白天图”（Q-instruct工具可以过滤掉模糊、过曝的图，只留“高质量清晰度基础图”）。
2）用“物理模型+图像变换技术”（P图）给上面得到的清晰图加雨点、模糊、噪声等等，模拟恶略天气效果。

下面给每张上面得到的退化图配“用户指令-修复响应”对。

用户指令：
用“Self-instruct（自指令策略）”生成指令---先让GPT-4v为每张退化图生成20条候选指令，再人工筛选掉模糊、重复的，为每张图留5条有效指令，以让模型适应不同用户的表达方式。

修复响应：
1）“chain-of-thought” (COT)思维链：用DepictQA-Wild（一种图像质量评估模型）评估退化图。

2）上面的COT相当于诊断，下面要生成最优修复步骤+模型选择。
用“穷举搜索”的方法，尝试所有可能的修复任务顺序，然后选修复效果最好（这里用到了奖励机制）的组合作为“标准答案”。

下面是CleanBench-Real部分：

退化图像：
从互联网、公开真实数据集（ACDC、Raindrop Clarity）找80K张“真·恶略天气图”。

下面生成“指令-响应”对：
用和“合成数据集”一样的方法（GPT-4v生成指令，DepictQA-Wild 做 COT 推理、穷举搜索选修复步骤），为这些“真·恶略天气图”配 “指令 - 响应”对。

截止，数据集就构建好了。

训练逻辑：
上面的“合成数据集”用于模型训练的第一阶段监督微调（SFT）。从“CleanBench-Real”中4类场景中各挑500张（2K张）作为“评估集”，剩下的78K作为“训练集”，这是模型训练的第二阶段人类反馈对齐（MRRHF）。

另外，SFT阶段是如何比较效果好坏的呢？

下面的MRRHF阶段，评价的是预测图的好坏。而SFT阶段，主要比较的是响应。

下面讲一下MRRHF阶段：

步骤1：生成候选响应（离线响应由SFT模型生成m1个，在线响应由Policy模型生成m2个，一共m1+m2个候选响应）

步骤2：通过下面的“多IQA模型融合”的奖励模型，得到每个响应的奖励分数S。

步骤3：计算Policy模型对响应的概率分数p

步骤4：MRRHF的总损失函数

下面对Lrank解释一下：

这里补充一下，在MRRHF阶段，我们是没有退化图对应的清晰图的，我们怎么能知道效果好与不好呢？
解释：这里融合多个IQA模型（Q-instruct、MUSIQ、MANIQA）的分数。

上面就介绍完了数据集和训练逻辑。

四、实验：
选了4个IQA指标：（MUSIQ、MANIQA、CLIP-IQA+、LIQE，分数越高越好）

和现有一体化方法比较：

五、消融实验：
主要是两个（混合样本生成、熵正则化）的必要性。
混合样本生成：离线样本保证基础质量，在线样本扩大搜索空间。
熵正则化：有效提升相应多样性，避免模型“死记硬背”单一任务序列。

六、创新点：
1、构建了“指令-响应”对数据集。
2、提出MRRHF算法，提出混合样本生成和熵正则化。

http://www.jsqmd.com/news/14245/

相关文章：

抖音麒麟福袋软件操作指南

2025 印尼物流专线公司推荐榜：聚焦合规高效，深圳恒翔物流凭实力登榜

国金证券 QMT 云服务器上重启后无法自动登录，如何解决？

人文创新研究：在意义的边界探寻新境

平面图最小割与对偶图最短路 - 干

深入解析：Nodejs开发环境搭建

项目管理：PERT/CPM

mysql版本升级 8.0.22升级到8.0.34

智能物联网的实时通信之钥——WebSocket

2025 苏州注册公司服务机构实用推荐：选择深度解析

可信AI研究获资助，10位博士生探索算法公平与隐私

LeetCode | 45. 跳跃游戏 II（转载）

实用指南：【在Ubuntu 24.04.2 LTS上安装Qt 6.9.2】

实用指南：mysql_query函数：数据库世界的信使

基于MATLAB的车道线检测

卷积神经网络读书报告

在AI技术快速实现创意的时代，挖掘邮件营销系统新需求成为关键突破点

完成一个商城购物车的程序.

RoI Pooling / Align

时延估计算法ETDGE的解析

备忘录：IDA*

RTX低成本迁移方案，支持国产环境

2025 年国内小程序开发优质机构最新推荐排行榜：覆盖多领域需求，助力政企精准选型

2025年10月权威信息公布：西安买房新楼盘口碑推荐榜单Top10~地建嘉信臻境领衔

Python 受保护成员和私有成员

2025 年钢制拖链源头厂家最新推荐排行榜：聚焦优质品牌助力企业精准选购，破解市场选型难题

2025 年北京律师事务所推荐：北京汇都律师事务所 —— 综合实力强、业务覆盖广且服务高效的专业法律机构

精确高效的API风险监测产品，筑牢运营商数据安全防线