当前位置: 首页 > news >正文

顶会超神思路!扩散模型+Transformer,速度精度双飞升!

小伙伴们好,我是小嬛。专注于人工智能、计算机视觉、AI大模型领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做,相关领域论文辅导也可以找我;需要的可联系(备注来意)】

-------正文开始--------

近期顶会研究中,扩散模型与Transformer的融合已成为生成式AI领域的核心热点,成功弥补两者固有短板。扩散模型擅长生成高质量样本但存在推理效率低、细节把控不足的问题,Transformer则凭借全局注意力优势,有效提升其特征建模能力与扩展性。从ADiT框架实现周期性与非周期性原子系统统一生成、推理效率大幅提升,到DDT模型优化训练收敛速度、DiT-SR实现超分任务精度突破,相关成果广泛应用于分子生成、图像融合、机器人操作等领域。

对于深耕该方向的论文党,推荐重点关注三大选题:二者融合的轻量化架构设计、推理效率优化方法、跨场景条件生成适配,当然,光 有个方向肯定是不行的,建议多关注顶会最新论文和工业界挑战,从中找到自己感兴趣也有优势的切入点。这里我为了帮大家节省查找的时间,我给大家提供更多的发文思路和方向,大家扫码获取!!!

Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

文章解析

本文提出MPDiT(Multi-Patch DiT),一种新型分层Transformer架构,用于提升扩散模型与流匹配模型的训练效率。其核心思想是:在早期Transformer块中采用大尺寸图像分块(large patches),以少量token高效建模全局上下文;随后通过上采样模块将大patch token转换为高分辨率小patch token,并交由后续少量精修块(k=4→6)处理局部细节。该设计在ImageNet上实现最高50%的GFLOPs降低,同时保持优异生成质量。此外,作者改进了时间嵌入(采用Fourier Neural Operator机制)和类别嵌入(多类别token前缀),显著加速收敛并提升FID约4点。

创新点

提出全球-局部多尺度Transformer架构(MPDiT),在架构层级而非注意力层内实现粗粒度到细粒度的渐进式建模。

引入可学习上采样模块,将大patch token动态升频为小patch token,实现计算与表征的协同优化。

设计Fourier Neural Operator时间嵌入,替代传统正弦位置编码+线性映射,增强时序依赖建模能力。

采用多类别token前缀(multi-class token prefix)替代单token AdaIN调制,提升类别条件建模的语义丰富性与训练稳定性。

研究方法

构建N-block Transformer主干,前N−k块输入大patch token(如16×16像素/patch),后k块输入小patch token(如2×2像素/patch)。

在大patch到小patch之间插入轻量级上采样模块(含转置卷积与残差连接),实现token数量指数级增长。

用Fourier Neural Operator层处理时间标量t,生成高维、非线性时间嵌入向量。

将多个类别嵌入向量作为prefix tokens拼接到输入token序列前端,参与全部Transformer层的自注意力计算。

研究结论

MPDiT在ImageNet上以显著降低的计算开销(最高−50% GFLOPs)达到与标准DiT相当甚至更优的生成性能。

仅需4–6个精修Transformer块即可充分恢复局部细节,验证了‘少而精’的分层建模有效性。

改进的时间与类别嵌入设计分别带来约4点FID提升和更快的收敛速度(尤其在有限训练预算下)。

该架构范式为扩散模型提供了兼顾效率与质量的新设计原则,无需牺牲生成质量即可大幅压缩训练成本。

Beyond Few-Step Inference: Accelerating Video Diffusion Transformer Model Serving with Inter-Request Caching Reuse

文章解析

本文针对视频扩散Transformer(DiT)模型推理成本高、尤其在工业级4步蒸馏模型上现有单请求内缓存(intra-request caching)失效的问题,提出Chorus——首个专为视频DiT设计的跨请求(inter-request)缓存加速框架。Chorus通过三阶段策略:初期全特征复用、中期基于语义区域的选择性复用(结合Token-Guided Attention Amplification提升提示对齐)、末期禁用缓存以修复不连续性,在保持生成质量前提下实现最高45%的端到端加速。

创新点

首次将跨请求缓存(inter-request caching)系统性引入视频DiT推理加速,突破单请求内缓存在蒸馏模型上的失效瓶颈。

提出Token-Guided Attention Amplification(TGAA)机制,增强提示词与关键token在后续去噪步中的引导作用,显著提升跨请求复用的语义鲁棒性。

设计三阶段动态缓存策略(全复用→区域选择性复用→完全计算),兼顾加速效率与生成一致性,适配视频去噪过程的语义演化特性。

研究方法

构建基于语义相似性的跨请求缓存索引机制,在服务端维护历史请求的潜空间特征快照。

Stage-1在初始去噪步对高度相似请求执行潜特征全量复用。

Stage-2在中间步骤仅复用对应特定物体或背景区域的局部潜状态,并辅以TGAA优化跨请求注意力对齐。

Stage-3在最后几步关闭所有缓存复用,回归完整Transformer计算以消除视觉/语义不连续性。

研究结论

Chorus在工业4步蒸馏Wan2.1模型上实现最高45%推理加速,且生成质量无损(FVD、FID等指标稳定)。

Chorus与知识蒸馏、intra-request caching等技术正交,可组合使用并进一步超越当前最优性能。

跨请求缓存对具有提示聚类特性的视频生成服务(如模板化短视频生成)具有强实用性与可扩展性。

感谢各位观众的观看和支持,祝大家的论文早日accept!!

希望论文一路绿灯的朋友可以找我,我有团队,有资源,有背景,一条龙服务~~~~

http://www.jsqmd.com/news/855230/

相关文章:

  • 2026靖江网络公司评测:靖江网站建设/兴化AI优化/兴化做网站/兴化网站优化/兴化网站建设/姜堰geo优化/姜堰网站优化/选择指南 - 优质品牌商家
  • 2026年Q2氨分解设备诚信标杆名录:氨分解发生炉/氨分解纯化/稀土行业用氨分解/立方制氮装置/冶金行业用制氮机/选择指南 - 优质品牌商家
  • 城市网格化治理平台
  • 论秒杀场景及其技术解决方案
  • Postgresql基础实践教程
  • Source Han Serif TTF技术方案:跨平台中文字体部署与性能优化深度解析
  • 设备与网版管控—双面丝印对位与清晰度硬件核心
  • 2026泰州地区网站优化服务商评测:泰州网络公司、靖江AI优化、靖江geo优化、靖江做网站、靖江网站建设、兴化AI优化选择指南 - 优质品牌商家
  • 论软件测试方法及应用
  • 优思学院|科技制造业如何提高质量变革成功率?
  • W波段LO设计:SRD脉冲倍频与有源连续波倍频链的工程实践对比
  • BepInEx:让游戏模组开发像搭积木一样简单
  • 面向新农服务的农产品大宗交易平台
  • LPMS-IG1 IMU数据获取实战:从串口权限到ROS Topic,一步步教你用Python/C++读取姿态角
  • Kubuntu 与 Fedora KDE:谁更适合新用户与前沿需求?
  • 离线语音芯片:重塑智能家居本地化控制的核心技术
  • AI时代,哪些IT岗位最不容易被AI取代?
  • 2026年机械电子行业制氮与氨分解设备推荐:制氮机保养、制氮机氮气纯化、制氮机设备改造、半导体用制氮机、工业制氮机选择指南 - 优质品牌商家
  • 告别C盘爆红!用WizTree免费工具5分钟揪出Windows里的‘空间大盗’
  • Mathcad三相系统相序分离建模:从对称分量法到工程实践
  • 2026年做网站哪家好:姜堰AI优化、姜堰geo优化、姜堰做网站、姜堰网站优化、姜堰网站建设、姜堰网络公司、泰兴AI优化选择指南 - 优质品牌商家
  • 错过申报期等于白干:政策信息平台的时效性保障技术方案
  • OpenAI联合创始人加入Anthropic,新一轮AI人才争夺战打响?
  • [具身智能-840]:内部小模型(小脑)铸就具身智能行动之躯,顶层大模型(大脑)赋予具身智能思想之魂,智能体(桥梁)搭建身心互通桥梁,二者深度融合,便是真正身脑合一的通用具身智能。
  • 2026兴化AI优化服务商排行:姜堰网站建设、姜堰网络公司、泰兴AI优化、泰兴geo优化、泰兴做网站、泰兴网站优化选择指南 - 优质品牌商家
  • DeepSeek BBH得分跃升至89.7%的关键突破:动态思维链剪枝技术首度解密(附PyTorch可复现代码)
  • 谷歌扩展AI检测功能:Chrome、搜索服务支持图像验证,未来将覆盖多类型内容
  • 若依(Shiro 1.2.4)安全加固实录:我是如何排查并修复RememberMe反序列化漏洞的
  • 家用超声波治疗仪优质品牌推荐指南:康复超声波治疗仪、理疗超声波、经颅磁仪器、经颅磁刺激治疗器、经颅磁治疗仪、经颅磁理疗仪选择指南 - 优质品牌商家
  • 2026年比较好的Mastercam五轴数控编程培训/ug汽车模具数控编程培训用户好评推荐 - 品牌宣传支持者