当前位置：首页 > news >正文

【CVPR26-张小云-上海交通大学】ODTSR：用于可控真实世界图像超分辨率的一步扩散Transformer

news 2026/3/27 7:41:50

文章：ODTSR: One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

代码：https://github.com/RedMediaTech/ODTSR

单位：上海交通大学、小红书公司

一、问题背景

现实场景的图像超分（Real-ISR）核心需求有两个：一是保真度，高清还原的图片要贴合原图，不能凭空捏造细节；二是可控性，能根据文字指令调整修复效果，比如把模糊的文字变清晰、让图中人物表情改变。

但此前的扩散模型超分方案，始终无法兼顾这两点，还各有短板：

多步扩散模型：能通过文字指令控制修复效果，但迭代去噪过程存在随机性，容易偏离原图，保真度低，且推理速度慢、耗时久；
一步扩散模型：推理速度快、保真度高，但为了追求原图贴合度做了大量专属微调，丢失了预训练扩散模型的可控性，无法实现文字引导的灵活修复。

同时，现有模型大多仅支持英文指令，对中文场景文字的修复效果差，还需要针对特定场景单独训练，成本高、泛化性弱，这些问题都制约了现实场景的落地应用。

二、方法创新

ODTSR基于通义千问的Qwen-Image模型打造，是首款超200亿参数、支持中英双语指令的一步扩散Transformer超分模型，核心创新点有两个，从架构和训练上彻底解决了“保真”与“可控”的矛盾：

1. 噪声混合视觉流（NVS）：双轨调节，兼顾基础能力与灵活控制

模型设计了两条并行的视觉处理流，分工明确且协同工作：

先验噪声流：注入固定水平的噪声，全程冻结参数，保留预训练扩散模型的去噪高清能力，筑牢超分的基础效果；
控制噪声流：通过保真度权重f（0-1）动态调节噪声水平，f=1时无额外噪声，完全忠于原图，保真度拉满；f=0时噪声拉满，模型更服从文字指令；中间值可线性调节，实现“保真-可控”的平滑切换。

两条流通过多模态Transformer联合注意力，一步预测速度场完成超分，既继承了预训练模型的能力，又实现了可控性的灵活调节。

2. 保真感知对抗训练（FAA）：动态适配，让模型“懂”得何时保真、何时控效

模型引入生成器（画高清图）和鉴别器（挑错打分）的对抗训练框架，并做了智能动态适配：

生成器损失由重建损失和对抗损失组成，对抗损失的权重会随保真度权重f动态变化：f值大（重保真）时，对抗损失权重降低，让模型专注还原原图；f值小（重控制）时，对抗损失权重提高，让模型大胆根据文字指令生成细节；
鉴别器基于DiT架构打造，采用补丁级判别和R1正则化，既能精准区分生成图和真实图，又能避免梯度爆炸，提升训练稳定性。

此外，训练中融入中英双语的多粒度文字描述，让模型天然支持中英双语指令，无需额外微调。

三、实验结果

研究团队在RealSR、DRealSR、DIV2K-Val等主流超分数据集，以及中文场景文字超分数据集RealCE-Val上，对ODTSR进行了全面测试，对比了PiSA-SR、TSD-SR等一步模型，以及SUPIR、DiT4SR等多步SOTA模型，结果表现亮眼：

1. 定量指标：全维度领先，兼顾数值与感知质量

在无指令的纯超分任务中，ODTSR在LPIPS、DISTS、FID等感知质量指标上均取得SOTA，MANIQA等无参考质量指标也表现优异，PSNR、SSIM等像素级指标与其他一步模型持平，实现了“数值达标、视觉更优”。

在文字可控超分任务中，ODTSR在CLIP-T（指令贴合度）上远超同类模型，在RealCE-Val的中文文字修复中，无指令时NED（文字相似度）已领先，加入文字指令后更是大幅提升，远超专门训练的模型。

2. 定性效果：复杂场景修复能力突出

在纹理细节、人脸、中英场景文字等难搞的场景中，ODTSR的修复效果碾压同类模型：模糊的中文招牌能清晰还原，人脸的五官细节不扭曲、更自然，纹理图案能精准复现；同时能精准执行文字指令，比如让岩石旁的士兵从哭变笑、把水滴变成闪亮珍珠球，指令贴合度高且不破坏原图整体结构。

3. 人工测评：用户偏好度第一

邀请20名志愿者对ODTSR与TSD-SR、DiT4SR、PiSA-SR进行盲测，从“原图贴合度”和“整体视觉质量”两个维度打分，ODTSR获得了53.25%的选票，远超其他模型，是最符合人类视觉偏好的超分方案。

4. 消融实验：核心创新缺一不可

单独验证噪声混合视觉流（NVS）和保真感知对抗训练（FAA）的有效性：移除NVS后，模型的保真度和指令贴合度均显著下降；使用固定权重的对抗训练而非FAA，模型无法适配不同的保真/控制需求，指令执行效果大幅变差，证明两个核心创新是ODTSR性能领先的关键。

四、优势与局限

核心优势

一步推理，两全其美：首次实现一步扩散模型下保真度与文字可控性的兼顾，速度快的同时，还能灵活按指令调整修复效果；
中英双语，泛化性强：天然支持中英双语文字指令，无需针对中文场景单独训练，就能高质量修复中文场景文字，大幅降低标注和适配成本；
场景适配广：在纹理、人脸、场景文字等复杂挑战场景中表现优异，超分效果的视觉质量和细节还原度均为SOTA；
操作灵活：通过单一保真度权重f即可实现“保真-可控”的平滑调节，无需复杂参数设置，上手门槛低。

现存局限

算力要求较高：作为超200亿参数的大模型，ODTSR的推理和训练需要较高的算力支持，对硬件条件有一定要求；
全局控制为主：目前的保真度权重f是对整张图片进行调节，暂不支持图片局部的精细化控制，无法实现“只调整某一区域的保真/控制程度”；
部分极端场景待优化：在部分严重退化的低清图片中，复杂细节的还原和指令执行的精准度仍有提升空间。

五、一句话总结

ODTSR通过噪声混合视觉流和保真感知对抗训练的创新设计，打造了首款支持中英双语指令的一步扩散Transformer超分模型，一举解决了现实图像超分中保真与可控的核心矛盾，实现了速度、质量、灵活性的三重突破，为现实场景的图像超分落地提供了全新的高效方案。

http://www.jsqmd.com/news/458399/

相关文章：

细聊重防腐漆靠谱厂家排名，前十名有哪些值得选 - 工业品牌热点

C语言系列之函数

FutureRestore-GUI零基础安全降级新手指南

突破散热瓶颈：OmenSuperHub让游戏本性能释放提升3倍

2026贵州草坪厂家Top5榜单：综合实力与新国标合规性深度解析 - 深度智识库

3步实现Zotero文献库智能规范化：从诊断到深度应用的完美方案

ASCAD数据集入门指南：如何用HDFView解析ATMega8515_raw_traces.h5文件

贝莱恩密胺餐具口碑怎么样，费用贵不贵，佛山有推荐吗？ - 工业设备

Chrome控制台实战：3行代码搞定网页自动刷新（含防卡死技巧）

EMC整改总失败？可能是你的信号上升沿时间没调对——从开关电源案例看带宽与干扰的关系

Cursor试用限制深度解决方案：从原理到实战的全方位突破

2026企业商用宽带服务知名品牌有哪些，为你提供可靠参考 - myqiye

5步精通开源数据救援工具TestDisk与PhotoRec

FFmpeg最新版7.0.2快速安装教程：Windows11免编译+百度云加速下载

杰理之可视化SDK关闭内置充电后，将VPWR口拉高，会导致开机2S后P33_PPINR1_RST复位【篇】

告别黑白命令行！用C语言+windows.h打造带鼠标控制的控制台菜单系统

薛定谔(schrodinger)交叉对接实战：从PDB下载到RMSD分析的完整流程

酷狗音乐缓存加密解析：从字节比对到密钥推导的完整过程

Android HTTPS抓包进阶：用Proxyman+ADB绕过证书锁定（2024最新版）

从零到一：基于PyTorch与DeepLabV3+的自定义数据集语义分割实战

颠覆式游戏管理工具：GreenLuma 2025 Manager革新Steam游戏配置体验

5分钟生成猫猫打拳视频！Wan2.1一键包+中文提示词魔法手册

职场人必看：如何用金字塔原理3分钟搞定年终总结（附模板）

杰理之切换模式回 BT 时，不会回连手机【篇】

Proteus 8.17 安装包获取与汉化指南-从下载到实战配置

Java 中什么叫单例设计模式？请用 Java 写出线程安全的单例模式

基于n8n与FastGPT构建智能客服系统的架构设计与实战

BUSCO结果解读全攻略：如何从C/S/D/F/M值判断你的基因组组装质量？

告别版本混乱：在Windows上使用JEnv高效管理多版本JDK

FreeRTOS任务调度与SPI(FLASH)操作冲突的临界区保护实践