当前位置: 首页 > news >正文

CVPR 2026:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍

我们的 CVPR 2026 工作 VDE:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍

论文:VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

会议:CVPR 2026

作者:Junwen Tan, Jinglin Liang, Hongyuan Chen, Shuangping Huang

单位:South China University of Technology

项目地址:https://github.com/Tan-Junwen/VDE

论文地址:CVF Open Access / arXiv

大家好,分享一下我们被CVPR 2026接收的一项工作:VDE

这项工作的目标很直接:在不重新训练模型、不蒸馏模型、不改模型权重的情况下,加速当前主流的Rectified Flow视觉生成模型推理。VDE 可以用于图像生成、视频生成和编辑场景,目前已经支持FLUX.1-dev、Qwen-Image、Z-Image、Wan2.1等模型。

一句话概括:VDE 不再简单地缓存并复用旧的模型输出,而是把速度场分解成更可预测的几何分量,并对后续步的速度进行解析估计,从而减少昂贵的模型前向次数。

为什么要做这件事

近两年,Rectified Flow 及其相关生成模型在图像、视频和多模态生成任务中表现非常强。以 FLUX、Qwen-Image、Wan2.1 等模型为代表,生成质量已经很高,但实际部署时仍然有一个非常现实的问题:推理慢

对于扩散模型或 Rectified Flow 模型来说,一次生成通常需要多步迭代。每一步都要调用大模型进行前向计算,尤其在高分辨率图像和视频生成中,计算代价非常可观。

已有的一类训练免费加速方法通常采用cache-and-reuse思路:把某些时间步的计算结果缓存下来,并在后续时间步复用。这个思路简单有效,但也存在一个问题:生成过程中的输入状态一直在变化,静态缓存值和当前输入之间会逐渐产生 mismatch,导致质量下降。

我们在 VDE 中尝试回答一个问题:

如果不直接复用旧输出,而是理解速度场在生成轨迹中的变化结构,能不能更准确地估计后续速度?

VDE 的核心思想

VDE 的全称是Velocity Decomposition and Estimation,即速度分解与估计。

在 Rectified Flow 模型中,模型每一步输出的是一个 velocity。VDE 的关键观察是:这个 velocity 可以相对于当前输入分解成两个部分:

  1. 平行于输入的分量

  2. 正交于输入的分量

这样做的好处是,原本复杂的速度场变化会被拆成更容易建模的结构:

平行和正交分量的系数在时间维度上具有较强的可预测性;同时,正交方向本身在局部时间段内也具有一定稳定性。因此,VDE 不需要每一步都调用原始生成模型,而是周期性地使用真实模型输出作为 anchor,再在后续若干步中通过分解后的几何结构来估计 velocity。

和传统缓存方法相比,VDE 的重点不是“把旧值拿来继续用”,而是“把旧状态作为锚点,对当前输入自适应地估计”。这使得它在加速的同时能更好地保持生成质量。

方法特点

VDE 有几个比较实用的特点:

  • Training-Free:无需重新训练或蒸馏模型,可以直接作用于已有 Rectified Flow 模型。

  • Input-Adaptive:估计过程依赖当前输入状态,不是简单复用静态缓存。

  • Model-Agnostic:可以迁移到多种图像和视频生成模型。

  • Plug-and-Play:适合和现有推理框架、ComfyUI、Diffusers 等生态继续集成。

  • 质量损失小:相比单纯减少采样步数或直接缓存,VDE 在 SSIM、PSNR、LPIPS 等指标上保持更好的结果。

实验结果

在多个主流生成模型上,VDE 都取得了比较稳定的加速效果。

FLUX.1-dev 文生图

基线设置为 50 步采样,延迟为8.20s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 3.01x | 2.72s | 16 | 0.8267 | 23.19 | 0.1997 | 0.3109 | 0.969 |

| VDE-medium | 2.70x | 3.04s | 18 | 0.8499 | 24.02 | 0.1679 | 0.3102 | 0.973 |

| VDE-slow | 2.21x | 3.70s | 22 | 0.8877 | 25.81 | 0.1243 | 0.3095 | 0.978 |

Qwen-Image 文生图

基线设置为 50 步采样,延迟为12.53s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.70x | 4.64s | 18 | 0.8967 | 25.46 | 0.1096 | 0.3163 | 1.287 |

| VDE-slow | 2.04x | 6.14s | 24 | 0.9362 | 28.58 | 0.0691 | 0.3159 | 1.295 |

Wan2.1 文生视频

基线设置为 50 步采样,生成81 帧、832x480视频,延迟为175.35s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | VBench |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.50x | 70.11s | 20 | 0.8658 | 24.69 | 0.0754 | 80.43 |

| VDE-slow | 2.08x | 84.18s | 24 | 0.8902 | 25.92 | 0.0554 | 80.32 |

整体来看,VDE 在图像和视频生成任务中都能实现约2.04x 到 3.22x的推理加速,同时保持较小的视觉质量损失。在图像生成实验中,相比较强的 cache-based baseline,VDE 在 SSIM 上提升19.5%,PSNR 提升30.3%,LPIPS 降低55.4%

当前支持的模型

目前 VDE 已经覆盖了图像生成、视频生成和编辑任务中的多个模型:

  • 图像生成:FLUX.1-dev、Qwen-Image、Z-Image

  • 视频生成:Wan2.1

  • 后续计划:ComfyUI 节点、Hugging Face Diffusers 集成,以及更多图像、视频、3D 生成模型支持

我们也希望这项工作能成为一个比较通用的 Rectified Flow 推理加速工具,而不仅仅服务于某一个具体模型。

为什么我觉得这个方向值得关注

大模型生成能力越来越强之后,推理效率会成为一个越来越关键的问题。

一方面,用户希望更快地得到结果;另一方面,实际部署中 GPU 成本、显存占用、并发吞吐都会直接影响产品可用性。对于图像生成来说,几秒钟的差距会影响交互体验;对于视频生成来说,几十秒到几分钟的差距会直接决定它能否进入真实工作流。

VDE 的意义在于,它提供了一种相对轻量、无需训练、可迁移的加速路线。它不是通过额外训练一个小模型去逼近原模型,也不是简单砍掉采样步数,而是利用 Rectified Flow 速度场本身的几何结构来做估计。

这也是我们认为它适合开源社区继续扩展的原因:如果一种加速方法能够以插件形式接入不同生成模型和推理框架,它的应用空间会非常大。

开源与使用

代码已经开源,欢迎大家 star、试用和提 issue:

https://github.com/Tan-Junwen/VDE

项目目前包含不同模型的 VDE 适配版本:

  • VDE4FLUX

  • VDE4QwenImage

  • VDE4Wan2.1

  • VDE4Z-Image

论文和项目链接:

  • GitHub:https://github.com/Tan-Junwen/VDE

  • CVF:https://openaccess.thecvf.com/content/CVPR2026/html/Tan_VDE_Training-Free_Accelerating_Rectified_Flow_Model_via_Velocity_Decomposition_and_CVPR_2026_paper.html

  • arXiv:https://arxiv.org/pdf/2605.23381

Citation

如果这项工作对你的研究或应用有帮助,欢迎引用:

@inproceedings{tan2026vde, title={VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation}, author={Tan, Junwen and Liang, Jinglin and Chen, Hongyuan and Huang, Shuangping}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={37918--37928}, year={2026} }

最后也欢迎大家交流 Rectified Flow、生成模型推理加速、图像/视频生成部署相关问题。感谢关注!


http://www.jsqmd.com/news/996216/

相关文章:

  • 从“隔直通交”到波形转换:一个电容如何让运放变身积分器?保姆级电路分析避坑指南
  • 企业级工作流系统架构设计:基于Flowable的智能审批解决方案
  • 2026年常州防排烟不锈钢风管怎么选?3家源头工厂实测对比与选购指南 - 优质品牌商家
  • EasyExcel注解避坑指南:@ExcelProperty顺序错乱、@ContentLoopMerge失效?看这篇就够了
  • RAGFlow v0.26.0发布:模型自动发现、多密钥管理、7大企业连接器、GraphRAG断点续跑、推理流更快更透明,超全升级解读
  • 从代码重构到系统设计:如何用‘矛盾分析法’搞定复杂业务逻辑?
  • 东北大学新研究:我们如何避开AI让隐私和数据价值都不受损?
  • 【STM32】 电解电容选型与电路稳定性实战指南
  • 调参避坑指南:OpenCV霍夫直线检测HoughLinesP的threshold、minLineLength到底怎么设?
  • 水表、燃气表维护福音:实测80K固件差分包仅3K的OTA升级方案选型指南
  • 2026年雷蒙磨粉机企业实力对比:从技术、服务到工程案例的深度分析 - 优质品牌商家
  • 2026年送餐车采购指南:从载重到续航,如何选对电动四轮送餐车与牵引平板车? - 优质品牌商家
  • 从游戏开发到信号处理:三角函数和差公式在实际项目中到底怎么用?(附C++/Python代码片段)
  • 从‘数1’实验看LC-3机器码的编程思想:循环、移位与条件跳转的底层实现
  • 别再只跑S参数了!用ADS搞定USB3.0眼图仿真,从模型获取到结果判读保姆级指南
  • Delphi文件操作避坑指南:用SHFileOperation函数搞定复制、移动、删除和重命名
  • xAnalyzer:让x64dbg逆向分析效率提升300%的智能插件
  • 南京大学揭秘:大模型做加法为何频频算错?
  • 2026年嘉兴挖机出租选对=省心 禾顺挖掘机租赁值得推荐 - 本地品牌推荐
  • 抖音批量下载工具终极指南:3分钟学会无水印视频下载
  • 终极3DS游戏格式转换指南:轻松将3DS文件转为CIA安装包
  • 2026年出国劳务公司怎么选?从资质、业务到服务,这份行业分析请收好 - 优质品牌商家
  • 5分钟掌握Win11Debloat:让你的Windows系统焕然一新的终极免费工具
  • USB PD协议里的四种Reset,到底该怎么用?一个真实调试案例带你搞懂
  • MPR084电容触摸传感器低功耗与中断配置实战指南
  • DLSS Swapper实战秘籍:三分钟轻松解锁游戏性能新境界
  • 计算机毕业设计之django校园兼职平台设计
  • 别再写一堆getter/setter了!用Qt的Q_PROPERTY宏解放你的代码(附完整示例)
  • 3秒搞定网页图片格式转换:Save Image as Type Chrome扩展终极指南
  • 计算机毕业设计之运动健康管理系统