字节开源王炸Bernini!轻松拿捏各类视频编辑任务
今天Bernini团队刚刚发布并开源了一项重磅研究成果Bernini。
这是一个将多模态大模型与扩散模型巧妙融合的统一视频生成与编辑框架,一经问世便在各大权威视频编辑和生成榜单上拿下顶尖成绩。
Bernini能够轻松拿捏各类视频编辑任务。
Bernini团队是怎么实现的?
大脑管规划双手管画画
多模态大语言模型(MLLM)在逻辑推理和语义理解上展现出了惊人的天赋,宛如一位满腹经纶的智者。
扩散模型在图像和视频生成上则达到了令人惊叹的逼真度,宛如一位妙笔生花的画师。
让智者去画画,线条难免生硬。让画师去解题,逻辑往往一塌糊涂。
有没有可能让这两位高手强强联手?
既然多模态大模型擅长语义推理,扩散模型擅长像素渲染,不如直接给它们进行物理分工。
Bernini正是基于这种分工理念构建的统一框架。
(A) 视觉和文本输入被序列化为统一的一维序列。(B) 规划师从掩码目标中预测目标语义嵌入,并为渲染器提供条件指导。(C) 渲染器在潜在空间中执行流匹配,接收语义嵌入和源数据特征双重指引。(D) 模型内部采用了分段混合注意力机制。(E) 特殊的分段感知位置编码彻底消除了来自不同片段的视觉标记重叠歧义。
在这个框架里,多模态大模型化身为语义规划师,只负责动脑子。基于DiT架构的扩散模型变身为像素渲染师,专心负责动手。
它们之间有一座沟通的桥梁,也就是视觉Transformer(ViT)的嵌入空间。规划师不需要直接输出笨重的原始高清画面,只需要在ViT空间里预测出目标视频的语义表达,把核心意图浓缩成高维数据。
随后,渲染师接过这份高度浓缩的计划书。在目标语义的强力指引下,结合原本的文本输入特征,以及源视频的变分自编码器(VAE)特征,去进行细致入微的像素级生成。
正是因为所有的核心交流都在这层语义接口上完成,规划师和渲染师完全可以各自独立完成主体预训练。
只需在最后的阶段进行轻量级联合调优,就能将它们完美绑定。这样做既保全了各自原有的强大能力,又大幅削减了联合训练所需的庞大开销。
位置消歧与思维链推理
想要真正玩转极具挑战的视频编辑,单靠基础的分工框架还远远不够。
实际应用中,一段完整的提示词往往同时包含原视频、多张参考图和目标预期视频。一堆庞杂的视觉信息全丢进模型里,很容易引发一场身份混淆的灾难。参考图片里的飞鸟,一不小心就会跑错片场,长到原视频原本干净的天空背景上。
为了解决这个棘手难题,研究团队巧妙引入了分段感知3D旋转位置编码(SA-3D RoPE)。
普通的3D位置编码只是机械地记录时间、高度和宽度坐标。当多段视觉素材被强行拼成一个大序列时,不同素材的元素大概率会挤在相同的时空坐标系下。
SA-3D RoPE的做法是给每一个素材片段分配一个专属的防伪索引。它通过引入分段依赖的全局相位调制机制,把片段自身的身份信息与纯粹的时空位置彻底解耦。
注意力机制在扫描全局时,立刻就能精准识别谁属于原视频、谁属于参考图,从根源上杜绝了特征信息的错误泄漏。
消除了视觉歧义,还要解决更深层次的逻辑难题。如何让规划师真正把理解力升华为创造力?
思维链推理机制成为了破题的关键。
在Bernini的运作逻辑中,编辑不仅是简单的像素搬运,更是严密的物理推理过程。研究团队为其量身打造了文本自我推理与视觉文本自我推理双引擎。
面对结构简单的直接编辑指令,模型会在内部启动自我文本推理,将其改写、扩写为包含景别、动作细节、时间逻辑的丰富脚本。
面对难度更高的因果关系编辑,自我视觉文本推理机制便会接管战场。它会先在大脑里推演关键首帧的视觉变化,将其生成为一张过度状态的图像,随后将这种空间层面的变化平滑扩展至整条时间轴上。从理解到推理再到生成,全链条的逻辑顺滑无比。
传统方法是拿到指令直接编辑。Bernini引入了两段式思维链,先通过文字逻辑推演改写指令,再通过视觉引擎构建中间视觉状态,极大地增强了画面的事实物理逻辑底蕴。
海量数据与极致系统优化
再精巧的算法骨架,也必须依靠海量高质量数据来填补血肉。
研究团队采用了非常精细的三阶段循序渐进策略。
阶段一,单独锤炼规划师,通过掩码生成建模范式,训练它根据多模态上下文补全缺失视觉信息的能力。阶段二,单独锤炼渲染师,专注提升它在高保真生成与源视频细节保留上的手艺。阶段三,双剑合璧,进行轻量级联合训练,打通语义规划与像素生成的任督二脉。
数据层面,研究团队直接构建了一个规模庞大且任务繁复的全能语料库。
为了打破现有视频编辑数据匮乏的僵局,他们从全网通用语料里大浪淘沙,通过相似度严格计算与内容感知采样,提炼出高达2000万对优质视频素材。又马不停蹄地挖掘了近3000万对包含真实场景物理操控的图像对比数据。
为了让模型懂得人类复杂的肢体语言与物理互动,他们还专门设计了运动感知生成管线,收集了百万级别带有人物骨骼检测标注的微观动作数据集。
训练支持超长上下文的视频编辑大模型,显存与计算资源压力如泰山压顶。团队对底层并行配置做了外科手术级的解剖重构,摒弃了传统的发散操作,直接通过预分配缓冲区执行索引散射,挤出了17GB的宝贵中间显存。结合特定的计算力卸载与Ulysses序列并行机制,模型的序列吞吐极限被暴力拉升4.4倍,稳稳拿捏440K超大文本与图像交织序列。
为了彻底消除推理生成慢的用户痛点,团队还引入了两阶段模型蒸馏机制。利用无分类器引导蒸馏技术,让模型在单次前向传递中直接吃透双路输出规律。只需短短4次底层运算,便能呈现出以往需要耗费80步算力的光影画质。
多重测试完胜闭源竞品
为了最精准地探测这套新框架的底线,研究团队费尽心力纯手工打造了Bernini-Bench权威基准库。
整整300个魔鬼测试用例,涵盖22个细颗粒度门类,不仅包含常规的背景替换、视角切换,更融入了焦点转移、远近推拉以及必须依赖世界常识去因果推理的动态难题。
这张基准图谱展现了从主体编辑、场景环境、视觉风格、相机运动到复杂推理等5大维度22个独立子项的全景测评体系,彻底覆盖了真实世界的棘手编辑场景。
在残酷的盲测竞技场上,Bernini交出了一张傲视群雄的答卷。
汇总人类评审成对偏好结果后,大家发现Bernini在维持视频一致性这一最为致命的痛点上展现出了罕见的统治力。它能把修改指令执行得严丝合缝,更是极少出现无关区域畸变扭曲的情况。
人类对开放式视频编辑的成对偏好盲测榜单如下,
整体评分、指令遵循、视频一致性与生成质量上的机器多维打分。Bernini的表现突出。
在OpenVE基准评估中,全局风格、背景修改、局部修改等微观层面均Bernini一骑绝尘,狂揽4.04的惊人综合高分,将诸多昔日霸主甩在了身后。在看重文本对齐和编辑质量的EditVerse跑分赛道,它再次冲上榜首。
甚至在底层的文本到视频生成评测环节,面对极有可能因为加入复杂编辑能力而导致原生生成能力退化的隐患,Bernini依然守住了84.64的巅峰总分。这几乎完全拉平了市面上最好的原生生成架构。在涵盖多重参照系的主体视频生成场景中,它更是强势摘得62.94的总分,碾压各种闭源头部玩家。
当极度理智的大脑遇上极其细腻的手脚,AI视频工业的破壁时刻就在眼前。
在评论区吐个槽,一起来聊聊Bernini是不是解救你生成视频的那一剂良药!
参考资料:
https://bernini-ai.github.io/
https://github.com/bytedance/Bernini
https://arxiv.org/pdf/2605.22344
