当前位置: 首页 > news >正文

【CVPR26-张小云-上海交通大学】ODTSR:用于可控真实世界图像超分辨率的一步扩散Transformer


文章:ODTSR: One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

代码:https://github.com/RedMediaTech/ODTSR

单位:上海交通大学、小红书公司


一、问题背景

现实场景的图像超分(Real-ISR)核心需求有两个:一是保真度,高清还原的图片要贴合原图,不能凭空捏造细节;二是可控性,能根据文字指令调整修复效果,比如把模糊的文字变清晰、让图中人物表情改变。

但此前的扩散模型超分方案,始终无法兼顾这两点,还各有短板:

  1. 多步扩散模型:能通过文字指令控制修复效果,但迭代去噪过程存在随机性,容易偏离原图,保真度低,且推理速度慢、耗时久;

  2. 一步扩散模型:推理速度快、保真度高,但为了追求原图贴合度做了大量专属微调,丢失了预训练扩散模型的可控性,无法实现文字引导的灵活修复。

同时,现有模型大多仅支持英文指令,对中文场景文字的修复效果差,还需要针对特定场景单独训练,成本高、泛化性弱,这些问题都制约了现实场景的落地应用。

二、方法创新

ODTSR基于通义千问的Qwen-Image模型打造,是首款超200亿参数、支持中英双语指令的一步扩散Transformer超分模型,核心创新点有两个,从架构和训练上彻底解决了“保真”与“可控”的矛盾:

1. 噪声混合视觉流(NVS):双轨调节,兼顾基础能力与灵活控制

模型设计了两条并行的视觉处理流,分工明确且协同工作:

  • 先验噪声流:注入固定水平的噪声,全程冻结参数,保留预训练扩散模型的去噪高清能力,筑牢超分的基础效果;

  • 控制噪声流:通过保真度权重f(0-1)动态调节噪声水平,f=1时无额外噪声,完全忠于原图,保真度拉满;f=0时噪声拉满,模型更服从文字指令;中间值可线性调节,实现“保真-可控”的平滑切换。

两条流通过多模态Transformer联合注意力,一步预测速度场完成超分,既继承了预训练模型的能力,又实现了可控性的灵活调节。

2. 保真感知对抗训练(FAA):动态适配,让模型“懂”得何时保真、何时控效

模型引入生成器(画高清图)和鉴别器(挑错打分)的对抗训练框架,并做了智能动态适配:

  • 生成器损失由重建损失和对抗损失组成,对抗损失的权重会随保真度权重f动态变化:f值大(重保真)时,对抗损失权重降低,让模型专注还原原图;f值小(重控制)时,对抗损失权重提高,让模型大胆根据文字指令生成细节;

  • 鉴别器基于DiT架构打造,采用补丁级判别和R1正则化,既能精准区分生成图和真实图,又能避免梯度爆炸,提升训练稳定性。

此外,训练中融入中英双语的多粒度文字描述,让模型天然支持中英双语指令,无需额外微调。

三、实验结果

研究团队在RealSR、DRealSR、DIV2K-Val等主流超分数据集,以及中文场景文字超分数据集RealCE-Val上,对ODTSR进行了全面测试,对比了PiSA-SR、TSD-SR等一步模型,以及SUPIR、DiT4SR等多步SOTA模型,结果表现亮眼:

1. 定量指标:全维度领先,兼顾数值与感知质量

在无指令的纯超分任务中,ODTSR在LPIPS、DISTS、FID等感知质量指标上均取得SOTA,MANIQA等无参考质量指标也表现优异,PSNR、SSIM等像素级指标与其他一步模型持平,实现了“数值达标、视觉更优”。

在文字可控超分任务中,ODTSR在CLIP-T(指令贴合度)上远超同类模型,在RealCE-Val的中文文字修复中,无指令时NED(文字相似度)已领先,加入文字指令后更是大幅提升,远超专门训练的模型。

2. 定性效果:复杂场景修复能力突出

在纹理细节、人脸、中英场景文字等难搞的场景中,ODTSR的修复效果碾压同类模型:模糊的中文招牌能清晰还原,人脸的五官细节不扭曲、更自然,纹理图案能精准复现;同时能精准执行文字指令,比如让岩石旁的士兵从哭变笑、把水滴变成闪亮珍珠球,指令贴合度高且不破坏原图整体结构。

3. 人工测评:用户偏好度第一

邀请20名志愿者对ODTSR与TSD-SR、DiT4SR、PiSA-SR进行盲测,从“原图贴合度”和“整体视觉质量”两个维度打分,ODTSR获得了53.25%的选票,远超其他模型,是最符合人类视觉偏好的超分方案。

4. 消融实验:核心创新缺一不可

单独验证噪声混合视觉流(NVS)和保真感知对抗训练(FAA)的有效性:移除NVS后,模型的保真度和指令贴合度均显著下降;使用固定权重的对抗训练而非FAA,模型无法适配不同的保真/控制需求,指令执行效果大幅变差,证明两个核心创新是ODTSR性能领先的关键。

四、优势与局限

核心优势

  1. 一步推理,两全其美:首次实现一步扩散模型下保真度与文字可控性的兼顾,速度快的同时,还能灵活按指令调整修复效果;

  2. 中英双语,泛化性强:天然支持中英双语文字指令,无需针对中文场景单独训练,就能高质量修复中文场景文字,大幅降低标注和适配成本;

  3. 场景适配广:在纹理、人脸、场景文字等复杂挑战场景中表现优异,超分效果的视觉质量和细节还原度均为SOTA;

  4. 操作灵活:通过单一保真度权重f即可实现“保真-可控”的平滑调节,无需复杂参数设置,上手门槛低。

现存局限

  1. 算力要求较高:作为超200亿参数的大模型,ODTSR的推理和训练需要较高的算力支持,对硬件条件有一定要求;

  2. 全局控制为主:目前的保真度权重f是对整张图片进行调节,暂不支持图片局部的精细化控制,无法实现“只调整某一区域的保真/控制程度”;

  3. 部分极端场景待优化:在部分严重退化的低清图片中,复杂细节的还原和指令执行的精准度仍有提升空间。

五、一句话总结

ODTSR通过噪声混合视觉流和保真感知对抗训练的创新设计,打造了首款支持中英双语指令的一步扩散Transformer超分模型,一举解决了现实图像超分中保真与可控的核心矛盾,实现了速度、质量、灵活性的三重突破,为现实场景的图像超分落地提供了全新的高效方案。

http://www.jsqmd.com/news/458399/

相关文章:

  • 细聊重防腐漆靠谱厂家排名,前十名有哪些值得选 - 工业品牌热点
  • C语言系列之函数
  • FutureRestore-GUI零基础安全降级新手指南
  • 突破散热瓶颈:OmenSuperHub让游戏本性能释放提升3倍
  • 2026贵州草坪厂家Top5榜单:综合实力与新国标合规性深度解析 - 深度智识库
  • 3步实现Zotero文献库智能规范化:从诊断到深度应用的完美方案
  • ASCAD数据集入门指南:如何用HDFView解析ATMega8515_raw_traces.h5文件
  • 贝莱恩密胺餐具口碑怎么样,费用贵不贵,佛山有推荐吗? - 工业设备
  • Chrome控制台实战:3行代码搞定网页自动刷新(含防卡死技巧)
  • EMC整改总失败?可能是你的信号上升沿时间没调对——从开关电源案例看带宽与干扰的关系
  • Cursor试用限制深度解决方案:从原理到实战的全方位突破
  • 2026企业商用宽带服务知名品牌有哪些,为你提供可靠参考 - myqiye
  • 5步精通开源数据救援工具TestDisk与PhotoRec
  • FFmpeg最新版7.0.2快速安装教程:Windows11免编译+百度云加速下载
  • 杰理之可视化SDK关闭内置充电后,将VPWR口拉高,会导致开机2S后P33_PPINR1_RST复位【篇】
  • 告别黑白命令行!用C语言+windows.h打造带鼠标控制的控制台菜单系统
  • 薛定谔(schrodinger)交叉对接实战:从PDB下载到RMSD分析的完整流程
  • 酷狗音乐缓存加密解析:从字节比对到密钥推导的完整过程
  • Android HTTPS抓包进阶:用Proxyman+ADB绕过证书锁定(2024最新版)
  • 从零到一:基于PyTorch与DeepLabV3+的自定义数据集语义分割实战
  • 颠覆式游戏管理工具:GreenLuma 2025 Manager革新Steam游戏配置体验
  • 5分钟生成猫猫打拳视频!Wan2.1一键包+中文提示词魔法手册
  • 职场人必看:如何用金字塔原理3分钟搞定年终总结(附模板)
  • 杰理之切换模式回 BT 时,不会回连手机【篇】
  • Proteus 8.17 安装包获取与汉化指南-从下载到实战配置
  • Java 中什么叫单例设计模式?请用 Java 写出线程安全的单例模式
  • 基于n8n与FastGPT构建智能客服系统的架构设计与实战
  • BUSCO结果解读全攻略:如何从C/S/D/F/M值判断你的基因组组装质量?
  • 告别版本混乱:在Windows上使用JEnv高效管理多版本JDK
  • FreeRTOS任务调度与SPI(FLASH)操作冲突的临界区保护实践