当前位置: 首页 > news >正文

JarvisIR

一、第一页

1、现实世界中的恶略天气表现出耦合的退化(雨天、雪天、雾天等等往往还伴随着雨滴、模糊、光晕等)。

2、不良天气图像复原方法主要有三种:任务专用法、一体化方法、整合多种专用模型。
1)任务专用法:针对于特定的退化类型,且需要特定退化类型的先验知识,而真实世界的退化是未知且耦合的。
2)一体化方法:需要以监督方式对合成数据集进行训练,这与真实世界数据存在显著的差距。
3)整合多种专用模型:该策略对任务顺序高度敏感,顺序的微小改变可能造成性能显著下降。

3、我们知道,大型语言模型(LLM)在推理、决策和与环境的交互方面很出色,我们同样可以将视觉语言模型(VLM)充当控制器来管理公开可用的专门恢复模型,自主规划任务,并选择模型来促进综合恢复系统的开发
但VLM需要大量的配对数据。在现实世界的场景中,虽然存在大量真实的退化数据,但缺乏相应的标签阻碍了监督微调方法的实施,为了解决这个问题并利用大规模的未标记数据,我们设计了一个基于人类反馈微调框架,允许以无监督的方式训练VLM。

二、第二页

1、JarvisIR是一个VLM驱动的Agent,集成了多个专用修复模型。JarvisIR可以自主管理和协调多个专用恢复模型,以解决耦合的天气退化问题。

2、CleanBench数据集:包括15w个合成数据集和8w个CleanBench-Real。每一组数据都是一个三元组“用户指令-退化图像-修复响应”

三、下面详细说一下数据集和训练逻辑:

image

首先是合成数据集部分:

退化图像:
1)先从公开数据集里挑“高质量白天图”(Q-instruct工具可以过滤掉模糊、过曝的图,只留“高质量清晰度基础图”)。
2)用“物理模型+图像变换技术”(P图)给上面得到的清晰图加雨点、模糊、噪声等等,模拟恶略天气效果。

下面给每张上面得到的退化图配“用户指令-修复响应”对。

用户指令:
用“Self-instruct(自指令策略)”生成指令---先让GPT-4v为每张退化图生成20条候选指令,再人工筛选掉模糊、重复的,为每张图留5条有效指令,以让模型适应不同用户的表达方式。

image

修复响应:
1)“chain-of-thought” (COT)思维链:用DepictQA-Wild(一种图像质量评估模型)评估退化图。

image

2)上面的COT相当于诊断,下面要生成最优修复步骤+模型选择
用“穷举搜索”的方法,尝试所有可能的修复任务顺序,然后选修复效果最好(这里用到了奖励机制)的组合作为“标准答案”。

下面是CleanBench-Real部分:

退化图像
从互联网、公开真实数据集(ACDC、Raindrop Clarity)找80K张“真·恶略天气图”。

下面生成“指令-响应”对
用和“合成数据集”一样的方法(GPT-4v生成指令,DepictQA-Wild 做 COT 推理、穷举搜索选修复步骤),为这些“真·恶略天气图”配 “指令 - 响应”对

截止,数据集就构建好了。

训练逻辑:
上面的“合成数据集”用于模型训练的第一阶段监督微调(SFT)。从“CleanBench-Real”中4类场景中各挑500张(2K张)作为“评估集”,剩下的78K作为“训练集”,这是模型训练的第二阶段人类反馈对齐(MRRHF)

另外,SFT阶段是如何比较效果好坏的呢?

下面的MRRHF阶段,评价的是预测图的好坏。而SFT阶段,主要比较的是响应。

image

下面讲一下MRRHF阶段:

步骤1:生成候选响应(离线响应由SFT模型生成m1个,在线响应由Policy模型生成m2个,一共m1+m2个候选响应)

步骤2:通过下面的“多IQA模型融合”的奖励模型,得到每个响应的奖励分数S

步骤3:计算Policy模型对响应的概率分数p

image

步骤4:MRRHF的总损失函数

image

下面对Lrank解释一下:

image

image

这里补充一下,在MRRHF阶段,我们是没有退化图对应的清晰图的,我们怎么能知道效果好与不好呢?
解释:这里融合多个IQA模型(Q-instruct、MUSIQ、MANIQA)的分数

image

上面就介绍完了数据集和训练逻辑。

四、实验:
选了4个IQA指标:(MUSIQ、MANIQA、CLIP-IQA+、LIQE,分数越高越好)

image

和现有一体化方法比较:

image

五、消融实验
主要是两个(混合样本生成、熵正则化)的必要性。
混合样本生成:离线样本保证基础质量,在线样本扩大搜索空间。
熵正则化:有效提升相应多样性,避免模型“死记硬背”单一任务序列。

六、创新点:
1、构建了“指令-响应”对数据集。
2、提出MRRHF算法,提出混合样本生成和熵正则化。

http://www.jsqmd.com/news/14245/

相关文章:

  • 10/15
  • 抖音麒麟福袋软件操作指南
  • 2025 印尼物流专线公司推荐榜:聚焦合规高效,深圳恒翔物流凭实力登榜
  • 国金证券 QMT 云服务器上 重启后 无法自动登录,如何解决?
  • 人文创新研究:在意义的边界探寻新境
  • 平面图最小割与对偶图最短路 - 干
  • 深入解析:Nodejs开发环境搭建
  • 项目管理:PERT/CPM
  • mysql版本升级 8.0.22升级到8.0.34
  • 智能物联网的实时通信之钥——WebSocket
  • 2025 苏州注册公司服务机构实用推荐:选择深度解析
  • 可信AI研究获资助,10位博士生探索算法公平与隐私
  • LeetCode | 45. 跳跃游戏 II(转载)
  • 实用指南:【在Ubuntu 24.04.2 LTS上安装Qt 6.9.2】
  • 实用指南:mysql_query函数:数据库世界的信使
  • 基于MATLAB的车道线检测
  • 卷积神经网络读书报告
  • 在AI技术快速实现创意的时代,挖掘邮件营销系统新需求成为关键突破点
  • 完成一个商城购物车的程序.
  • RoI Pooling / Align
  • 断言
  • 时延估计算法ETDGE的解析
  • 备忘录:IDA*
  • RTX低成本迁移方案,支持国产环境
  • 2025 年国内小程序开发优质机构最新推荐排行榜:覆盖多领域需求,助力政企精准选型
  • 2025年10月权威信息公布:西安买房新楼盘口碑推荐榜单Top10~地建嘉信臻境领衔
  • Python 受保护成员和私有成员
  • 2025 年钢制拖链源头厂家最新推荐排行榜:聚焦优质品牌助力企业精准选购,破解市场选型难题
  • 2025 年北京律师事务所推荐:北京汇都律师事务所 —— 综合实力强、业务覆盖广且服务高效的专业法律机构
  • 精确高效的API风险监测产品,筑牢运营商数据安全防线