当前位置：首页 > news >正文

南开大学与通义实验室突破:音视频生成实现25倍速度提升同步演绎

news 2026/6/24 16:25:37

这项由南开大学计算机学院与阿里巴巴通义实验室、北京大学联合完成的研究，以预印本形式发布于2026年4月（arXiv编号：2604.25819），提出了一种名为"Mutual Forcing"（互强迫）的流式音视频联合生成框架，在大幅降低计算步骤的同时，实现了高质量的长时序音画同步生成。

说起AI生成视频，大多数人可能已经不陌生了。但你有没有想过，让AI同时生成一段说话的视频和与之完全匹配的声音，像真正的"电影导演"一样，把画面和音轨一次性创作出来，会有多难？现有的系统大多只能分步走——先生成声音，再生成视频，或者反过来——两件事做起来都已经很费力，合在一起更是难上加难。而且即便生成出来了，那速度也慢得令人抓狂：每生成一段视频，系统要反复"打磨"上百次，才能交出一个像样的结果。

这就是这支研究团队面对的核心挑战：能不能造出一个系统，既能同时生成音频和视频，又能跑得飞快，还能在一段长达数十秒的内容里保持音画始终对得上？他们给出的答案，就是这篇论文的主角——Mutual Forcing。

一、为什么音视频联合生成这么难？先看问题根在哪里

要理解这项研究的价值，得先弄明白现有技术卡在哪里。把这件事想象成一位厨师同时烹饪两道菜：一道需要慢火炖煮（视频），一道需要精确掌握火候（音频）。两道菜不仅要各自完美，还要在同一时刻端上桌，口味还要相互呼应。单独练好任何一道都需要花很多时间，但要同时做好，难度完全不是叠加，而是相乘。

当前研究领域里，绝大多数工作都聚焦于"单一菜品"的精进，比如专注于文字生成视频、图片生成视频、或者音频驱动视频这类任务。真正意义上的"音视频联合生成"——也就是从零开始同时创作出画面和声音——其实还是一个相对少被深入探索的领域。部分早期研究虽然有所涉及，但通常局限于特定类型的数据集，或者只能处理简单的声音事件，远远达不到实用水平。

即便解决了"联合生成"的问题，还有两座大山挡在前面。第一座是速度：现有的高质量生成系统普遍需要进行大量的"去噪"步骤（简单理解就是从一团噪声里一点一点雕刻出清晰内容的过程），通常需要五十步甚至一百步才能产出一个结果，既耗时又耗算力。第二座是"越跑越偏"的问题：这类系统在训练时看到的都是真实的历史帧，但实际使用时却只能看到自己之前生成的内容——就像一个厨师在练习时用的是最顶级的食材，正式上菜时却只能用自己上一道菜的剩余边角料来做下一道，时间一长，误差不断积累，质量急剧下滑。

二、双管齐下：先把两位厨师各自培训好，再让他们搭档

面对如此复杂的挑战，研究团队设计了一套"两阶段训练方案"，思路其实和现实中培训厨师团队很相似。

第一阶段，他们分别独立训练音频生成模型和视频生成模型。两个模型在各自的数据上充分学习，各自把"手艺"练扎实，建立起稳定的单模态生成能力。这样做的好处是避免两个模型在联合训练初期互相"拖后腿"——如果一开始就强行让两个都还没学好的模型同时工作，训练信号会非常不稳定，收敛缓慢，容易陷入次优解。

第二阶段，两个已经独当一面的模型被整合进一个统一架构，在配对的音视频数据上进行联合微调。为了让音频和视频的信息能够真正"对话"，研究团队特意将两个分支的自注意力机制融合在一起——用通俗的说法就是，音频的"注意力"和视频的"注意力"在计算时共享同一个舞台，彼此都能看到对方在做什么，从而实现真正的跨模态同步。

这个架构的一个重要设计原则是：两个分支在结构上保持完全一致，便于后续的无缝融合。训练数据方面，视频数据来自Panda70M，音频数据来自Emilia，配对音视频数据则主要来自Seamless、SpeakerVid-5M和InternVid等数据集，覆盖了大量真实场景下的人类说话视频。

整个模型的规模相当可观：音频分支和视频分支各有70亿参数，合计140亿参数，属于真正的大规模生成模型。

三、流式生成：像直播一样一帧帧往外"播"

解决了联合建模的问题，研究团队还有一个更野心勃勃的目标：让模型能以"流式"方式工作，也就是像直播流一样，实时地、逐帧地生成内容，而不是等到整段内容都生成完毕才一次性输出。

这种方式的好处显而易见：延迟低、可以无限延长、计算资源消耗也随着序列长度线性增长而非平方级增长（这在技术上是个巨大的优势）。这个框架在数学上被表达为：在每个时间步k，模型只根据之前已经生成的内容来预测下一帧，就像一个讲故事的人只能基于自己已经讲过的部分继续往下编，而不能"提前看剧本"。

然而，流式生成带来了两个棘手的技术难题。一是如何足够快——在一次"去噪"过程中，如果需要走上百步，实时生成根本无从谈起。二是如何防止"越走越偏"——每一帧的小误差都会叠加到下一帧的输入里，时间一长，误差像滚雪球一样越来越大，生成质量就会急剧恶化。

四、Mutual Forcing的核心秘密：让同一个模型学会"快跑"和"稳走"

这就轮到这篇论文最核心的创新登场了——Mutual Forcing。

在讲清楚它之前，先理解一下现有的几种解决思路，以及它们各自的局限。最基础的做法叫"Teacher Forcing"（教师强迫），就是在训练时把真实的历史帧喂给模型，让它学习。这就像练习烹饪时用的全是顶级食材——练起来效果好，但真正上岗时食材换成了自己生成的"次品"，落差太大，生成质量随时间快速下滑。另一种改进叫"Diffusion Forcing"，通过给历史帧加噪声来模拟误差，缓解了部分落差问题，但速度依然很慢。

还有一种更先进的方法叫"Self-Forcing"（自我强迫），它的思路是用模型自己生成的历史帧来训练，这样训练和实际使用时的"食材质量"就一致了。但这个方法有几个严重缺陷：它需要额外训练一个"双向生成的老师模型"（能看到前后文的模型），然后再把这个老师的知识蒸馏到单向的流式模型里，整个流程包含四个阶段，非常繁琐；而且老师模型的能力上限决定了学生模型的上限，一旦老师不够好，学生再努力也白搭；此外，由于老师模型限制，训练时的视频长度被锁定在固定的几秒钟内，无法处理更长的序列。

Mutual Forcing的做法截然不同。它的核心思路是：用同一套参数同时支持两种工作模式——"多步模式"（Multi-step Mode）和"少步模式"（Few-step Mode）。

多步模式就是传统的精细生成：像一个细心的画家，一笔一笔慢慢雕琢，每一步只走一小段，走很多步才完成一张画。这种方式质量最高，但速度慢。少步模式则是像一个经验丰富的素描家，寥寥几笔就能勾勒出传神的轮廓，四步或八步就完成整个生成过程。

关键在于这两种模式用的是完全相同的一套参数，就像同一个厨师既会慢炖又会快炒，技巧是通用的，只是操作节奏不同。在数学形式上，多步模式输出的是一个瞬时速度向量（告诉模型下一小步怎么走），而少步模式输出的是一个时间区间内的平均速度（告诉模型一大步怎么跳）。

五、两种模式如何互相"喂养"：自我进化的双向循环

Mutual Forcing真正精妙的地方在于这两种模式的训练方式是相互依存的，形成了一个自我强化的闭环。

在训练多步模式时，研究团队做了一个关键改变：不再用真实的历史帧作为输入，而是先调用少步模式快速生成历史帧，再把这些"自己生成的"历史帧作为上下文来训练多步模式的下一帧预测。这就让模型在训练时就已经习惯了处理自己生成的内容，实际推理时就不会因为"食材不同"而表现失常。这个目标被称为"训练-推理一致性"。

在训练少步模式时，研究团队用多步模式的输出作为"老师"，通过一种叫做"自蒸馏"（self-distillation）的技术来让少步模式学习：少步模式生成一个结果，多步模式对同样的输入给出一个更精准的答案（但梯度被截断，不影响多步模式自身的更新），少步模式通过缩小与多步模式答案之间的差距来提升自己。这就像一个快速素描家在向细心画家看齐，不断打磨自己寥寥数笔的精准度。

由于两种模式共享参数，这两个训练过程是紧密耦合的：多步模式越来越强，就能给少步模式提供更好的蒸馏目标；少步模式越来越准，就能给多步模式提供更真实的历史上下文。两者相互促进，持续进步，这正是"Mutual Forcing"（相互强迫）名字的由来。

对比之前的Self-Forcing方法，Mutual Forcing的优势在多个维度上都很明显：不需要额外训练一个单独的老师模型（节省了大量计算资源）；老师是自己的多步模式，随训练持续提升，不存在固定老师带来的上限问题；训练序列长度可以灵活设置，不被锁定在特定秒数内；整个流程只需要两个阶段（因果预训练加上双模自进化），而不是四个阶段。

六、具体怎么实现"少步"：混合蒸馏策略

在少步模式的具体训练中，研究团队还做了一个细致的设计选择。他们注意到两种常见的蒸馏方法各有短板：ShortCut风格的蒸馏训练稳定，但在步数压缩到极致（比如只有4步）时质量明显下降；DMD风格的蒸馏（分布匹配蒸馏）在少步条件下质量更好，但训练过程容易不稳定，对大规模音视频模型尤其危险。

于是他们采用了一个混合策略：将两种蒸馏损失按照一定比例结合在一起，具体是DMD损失占三分之一、ShortCut损失占三分之二。这样既借助了ShortCut的训练稳定性，又保留了DMD在少步生成上的质量优势，二者取长补短。

在技术细节上，少步模式的训练以时间区间为单位：给定一个从较高噪声水平到较低噪声水平的时间区间，模型需要预测这个区间内的平均速度，从而可以用一步更新代替多步迭代。老师信号来自多步模式在重新加噪的学生预测上进行的推理（带有梯度截断），假模型则负责追踪当前少步分布的行为，用于DMD损失的计算。

七、位置编码：确保音频和视频在时间轴上精确对齐

除了核心的双模自进化机制，论文还特别设计了一套专门用于多模态流式生成的位置编码方案。

研究团队采用了一种三维旋转位置编码（3D RoPE），将每个token的位置信息分解为时间、高度和宽度三个维度。视频token的三个维度都有实际含义，而音频和文本token则将高度和宽度维度设为零，只保留时间维度。所有位置索引都基于对应内容的实际时间戳计算，而非简单的顺序编号。这样做确保了不管是视频帧、音频片段还是文字描述，它们在时间轴上的位置对应关系是精确且一致的，为音画同步提供了底层保障。

模型还支持三种控制信号的组合输入：第一帧的图像条件（决定视频的初始状态和人物外观）、描述整体场景的全局文字提示（由Gemini 2.5 Pro自动生成）、以及带时间戳的流式ASR控制信号（由Whisper生成，精确指定每段语音的内容和时机）。这种设计让用户可以在生成长视频时，通过文字精确控制说话人在每个时间段说什么话，实现细粒度的内容控制。

八、实验结果：快25倍，质量还更好

论文在多个维度上进行了量化评估，对比对象包括音频驱动的视频生成方法（Fantasy-Talking、Omni-Avatar、Wan-S2V）和音视频联合生成方法（Universe-1、OVI）。

评估指标涵盖三个层面。在音视频对齐方面，使用SyncNet置信分数来衡量唇形同步质量。在视频质量方面，评估运动分数、美学分数和身份一致性。在音频质量方面，评估CLAP特征的分布距离（FD和KL散度）、AudioBox美学评分（包括感知质量、内容效果、内容独特性等子项），以及通过词错误率衡量的语音识别准确度。

结果显示，Mutual Forcing在使用4步或8步去噪的情况下，在绝大多数关键指标上超过了需要100步去噪的对比方法。以唇形同步分数为例，8步的Mutual Forcing达到6.35，高于OVI的6.19；词错误率（越低越好）为0.11，远低于OVI的0.17；音频质量的内容独特性评分为6.51，也优于OVI的5.69。这意味着在生成效果上的优势不是以牺牲质量换速度，而是真的在质量和速度两个维度同时领先。

推理速度方面，对比数据更加直观。Universe-1需要4块GPU才能达到每秒0.6帧，OVI需要8块GPU才能达到每秒1.3帧，而Mutual Forcing在单块GPU上就能达到：192×336分辨率下每秒30帧（实时生成），480×768分辨率下每秒12帧，704×1280分辨率下每秒3.5帧。这不仅仅是速度的提升，更是对算力需求的根本性降低——从需要多块高端GPU，到普通单块GPU即可运行。

此外，研究团队还进行了人类评估实验，收集了106份有效问卷，让参与者在盲审条件下比较不同方法的输出。Mutual Forcing在视觉偏好、音频对齐和整体质量三个维度上均获得了最高胜率，对比Universe-1时胜率高达91.7%，对比OVI时也稳定在56.5%到67.4%之间。

九、越跑越稳：长视频不崩的秘诀

研究团队还专门针对长序列生成进行了对比实验，评估各方法在0到5秒、5到15秒、15到25秒三个时间窗口内的质量变化。这个实验设计的目的是看各方法在长时间运行后质量是否会急剧下降。

对比基线包括三种：用Teacher Forcing训练的DMD蒸馏模型、用Teacher Forcing训练的ShortCut蒸馏模型，以及用Self-Forcing训练的DMD蒸馏模型。实验结果清晰地展示了"越跑越偏"问题的严重性：这三种基线方法在音频和视频质量上都随时间窗口的推移出现了明显的下滑，有些指标在第三个时间窗口里几乎跌落到初始水平的一半。

相比之下，Mutual Forcing的各项指标在三个时间窗口里几乎保持水平不变——音频内容独特性维持在5.70到5.41之间，视频美学分数稳定在0.46，身份一致性也从0.85轻微降至0.85。这种稳定性来自于训练过程中的自我进化机制：由于少步模式在训练时就不断生成历史上下文，模型已经充分练习了在处理自己的"次品"输入时如何保持高质量输出，因此在实际推理时，误差积累效应被大幅抑制。

值得一提的是，Mutual Forcing的训练并没有专门使用25秒长的序列，但它依然能够在25秒的长视频生成任务上表现稳定，说明这种双模自进化机制学到的是一种本质性的稳定策略，而不仅仅是对特定长度的记忆。

十、注意力分析：数学层面的直觉验证

为了从更底层的角度理解为什么Mutual Forcing有效，研究团队还分析了模型内部的注意力机制行为。

首先，他们对比了多步模式和少步模式在各个网络层上的注意力图相似度。结果发现，两种模式的注意力图在所有层上的余弦相似度都超过了97%。这说明共享参数的设计确实让两种模式学到了高度一致的内部表示，少步模式在"快速素描"时用的思维逻辑与多步模式"精细描绘"时几乎完全一致，这正是自我蒸馏能够成功的基础。

其次，他们对比了Mutual Forcing和原始Teacher Forcing模型在处理第10秒内容时的历史帧注意力分布。原始Teacher Forcing模型会把大量注意力集中在少数几帧历史帧上，一旦这几帧出现误差，影响会被急剧放大。而Mutual Forcing训练出的模型则把注意力更均匀地分布在更长的历史区间内，不依赖于某几个关键帧，从而天然地具备了更强的鲁棒性，能够应对历史帧中偶发的质量波动。

归根结底，Mutual Forcing为联合音视频流式生成这个难题提供了一个简洁而有效的解法：不需要复杂的多阶段蒸馏流程，不需要额外的固定老师模型，只需要让同一个模型的两种工作模式互相学习、互相提升，就能同时解决速度和质量随时间退化这两大核心挑战。当然，这项研究也存在一些客观局限：训练数据的规模和多样性受限于研究资源，对于多人对话或第一人称视角等场景的覆盖还不够充分；而在更高分辨率下的实时生成也仍是未来需要继续优化的方向，包括对长序列进行上下文压缩以及进一步减少采样步骤等。有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.25819查阅完整论文原文。

Q&A

Q1：Mutual Forcing的"少步生成"是怎么做到只用4到8步就生成高质量视频的？

A：Mutual Forcing通过训练模型同时掌握两种模式：多步模式像画家细细描绘，少步模式则预测一大段时间内的平均速度，从而用一步跨过多步的距离。少步模式通过自蒸馏不断向多步模式的高质量输出看齐，同时混合了ShortCut（训练稳定）和DMD（少步质量强）两种损失函数，最终实现了4到8步完成生成而不损失质量的效果。

Q2：Mutual Forcing和Self-Forcing有什么本质区别？

A：Self-Forcing需要先单独训练一个双向老师模型，再经历多阶段蒸馏才能得到流式生成模型，训练时序列长度被锁定，且模型能力上限受制于老师。Mutual Forcing直接从因果模型出发，用共享参数的两种模式互相训练，多步模式持续改进后自动为少步模式提供更好的蒸馏目标，无需外部老师，训练长度也更灵活。

Q3：Mutual Forcing生成的长视频为什么不会越来越差？

A：因为Mutual Forcing在训练时就让模型处理自己生成的历史帧，而不是真实帧。这使模型从一开始就习惯了自身误差存在的环境，学会了在不完美的历史输入下依然维持高质量输出。实验中，即使在未曾训练过的25秒长视频上，三个时间窗口内的音频和视频质量几乎没有下降。

查看全文

http://www.jsqmd.com/news/771783/