数字人大模型 daVinci-MagiHuman
上海交大人AI研究院联手 Sand.ai 开源了超强音视频大模型 daVinci-MagiHuman。
单张H100显卡2秒就能生成5秒256P人物音视频。最让人惊艳的是AI的微表情生成能力,挑眉、抿唇、眼角的细微牵动都自然到和真人无异,人类评测胜率超80%。
开源地址:https://github.com/GAIR-NLP/daVinci-MagiHuman
现在的AI音视频生成赛道,早就不是拼单纯的画面生成能力了,能做出贴合情绪的人物微表情、实现音画精准同步,才是真正的硬实力。
而daVinci-MagiHuman专为人物音视频生成打造的AI模型,把逼真二字真的做到了极致。
不仅能精准还原挑眉、撇嘴、浅笑这些细腻的微表情,让人物的情绪表达更生动,还能实现微表情和语音的完美联动。
说开心时眼角会自然弯起,讲严肃内容时嘴角会轻轻抿紧,就连肢体动作的幅度、节奏都和真人的行为逻辑高度契合。
同时还支持普通话、粤语、英语、日语、韩语、德语、法语等多语种语音生成,跨语言的人物音视频创作直接一步到位。
咱们直接看下案例效果吧。仔细看这个妹子说话时的眨眼、嘴巴联动,话语停顿等几乎和人类差不多,笑的时候也很自然,日剧味可太冲了~
,时长00:37
而这个小哥说话时的语气、眼神、动作也特别到位,毫无违和感。
,时长00:19
这款模型能做出这么惊艳的微表情和逼真效果,核心在于它颠覆了传统的多流架构,采用 150 亿参数的 40 层单流Transformer 作为核心骨干网络,把文本、视频、音频三种不同信息全都转换成统一的token序列,只用自注意力机制就完成了所有特征的处理和融合。
咱们打个比方,传统多流架构就像是给不同的食材准备了不同的灶台和厨具,还要专门找个师傅来把做好的菜拼在一起,步骤多还容易出问题。
而单流架构就是一个万能灶台,所有食材都在这个灶台上处理,还能自然融合出味道,不仅省了设备,还少了中间拼接的麻烦。从根源上保证了人物表情、动作和语音的协调性,微表情的自然度也就水到渠成。
当然这套单流架构能落地,还靠四个特别贴心的设计细节,每一个都踩在了架构优化的点子上。
首先是三明治架构布局,40 层 Transformer 的开头和结尾各 4 层专门处理不同模态的特征,能精准捕捉文本里的情绪细节、音频里的语调变化、视频里的面部特征。
中间 32 层则用共享参数做深度融合,让情绪、微表情、语音三者完美联动,不会出现 “说着开心的话,脸上却是平淡表情” 的违和感。
其次是无时间步去噪机制,去掉了传统扩散模型专门处理时间信息的模块,直接从带噪声的音视频数据里推断去噪状态。
让人物的微表情变化更连贯,从浅笑到大笑的过渡、从皱眉到舒展的过程,都和真人的表情变化节奏一致,不会出现卡顿、跳帧的生硬感。
还有注意力头级门控设计,给每个注意力头加了可调节的门控,让模型能自主聚焦到微表情的关键特征上。
比如眼角的褶皱、嘴角的弧度、眉峰的高度,这些细微的面部变化都能被精准捕捉和还原,同时还能保证训练时的数值稳定,几乎不增加额外的计算开销。
最后是统一条件处理,把去噪音视频数据、参考的文本情绪、甚至参考图片里的面部特征,都映射到同一个特征空间处理,不用为不同的生成需求设计专门模块。
不管是根据文本生成带微表情的人物视频,还是参考图片还原人物的表情动作,都能轻松搞定,通用性拉满的同时,还能保证微表情的还原度和自然度。
光有逼真的效果还不够,推理效率拉满,才能真正落地商用,而 daVinci-MagiHuman 在速度上的表现,同样让人惊喜。
研究团队把单流骨干网络和模型蒸馏、潜空间超分辨率、Turbo VAE 解码器、全图编译四大技术深度融合,让单张 H100 显卡就能实现秒级生成。
不管是离线做内容创作,还是在线做低延迟的智能数字人交互,都能完美适配,这也是它能成为业内新王炸的重要原因。
在主流测试中daVinci-MagiHuman也相当能打。在客观的质量评测上,视频质量用的是VerseBench基准和VideoScore2指标,从视觉质量、文本对齐、物理一致性三个维度打分,音频质量用TalkVid-Bench基准,用词错误率来衡量语音的可懂度,这个数值越低,说明语音越清晰。
针对中日韩这些语言,还专门做了字符级的计算,避免了分词带来的误差。
实测数据里,这款模型的视觉质量得分4.80,文本对齐得分4.18,都是三款模型里的最高分,比Ovi 1.1和LTX 2.3都要高,说明生成的画面质量更好,和输入的文本描述贴合度也更高。
而主观的人类偏好测试,结果更是一边倒。团队找了10名专业的评估人员,做了2000组随机的对比测试,其中1000组和Ovi 1.1比,1000组和LTX 2.3比,评估人员根据音视频的整体质量、同步性、自然度三个维度选自己更喜欢的结果。
和Ovi 1.1对比的时候,这款模型的胜率直接达到了80%,只有11.8%的情况大家更喜欢Ovi 1.1,平局只有8.2%。
就算是和实力更强的LTX 2.3对比,胜率也有60.9%,对手胜率只有21.9%。
这个结果能直接说明,从人的主观感受来看,这款模型生成的内容更符合大家的审美,音画同步性更好,人物的动作和语音也更自然,这对音视频生成模型来说,是最核心的评价标准。
原文:
https://mp.weixin.qq.com/s/ZDW6I8qrYGEfqVdzaJay9Q
