当前位置：首页 > news >正文

山东大学项目实训个人纪实（6）——降低唇形同步延迟及性能需求

news 2026/6/3 4:03:26

上期博客已经实现了流式输出，纯语音对话的延迟已经达到了实时对话的标准，主要影响体验的还是唇形同步，当前项目使用Audio2Face插件，但插件使用深度学习算法计算口型，需要用上GPU跑模型，就导致对电脑性能要求极高（天选4笔记本带不动）本博客将记录我对基于Oculus Lipsync插件的音频驱动唇形方案，实现纯CPU和低性能需求的唇形同步

Oculus Lipsync插件下载及安装

为什么下载和安装要单拎出来讲？因为Oculus Lipsync插件官方已停止对插件的维护。我在第四篇博客已经有了初步调研，原配插件不支持UE5.6，且不支持实时唇形同步。原插件主要是烘培动画使用。

但为什么现在又重新启用该方案了呢？~~首先就是我变牛逼了~~，当前对UE C++了解更加深入，可以尝试动手改插件。其次，我们“请循其本”，该插件的核心原理是“实时分析音频的波形，计算出‘音素（Visemes）’的权重，并驱动面部表情”，也就是说，计算音素这一步可以做到实时，我只需讲音素拿过来实时驱动面部表情就够了。理论成立，实践开始。

插件下载，我使用的是Github上大佬开源的UE5增强版。将项目改为C++，重新编译启动即可。

实现音频转音素

主要通过插件FeedAudio()函数实现。

首先注意到最后一行ProcessFrameAsync()函数，FeedAudio()调用是逐帧调用，然而音频是好几秒，所以我需要一个将音频切片的辅助函数。

已知我的运行帧率是30fps，音频采样率为 24000 Hz，单声道，16-bit，所以应该给函数传递的数据量为( 24000*2 ) / ( 1/30 ) = 1600B。

实现音素驱动嘴型

首先第一大难题：找到Metahuman控制面部表情的地方在哪。由于UE迭代速度过快，原先Face_BP这些蓝图都没有了，一大波教程都被淘汰了，UE官方说是升级了，但也没写好文档，导致我只能一点点摸索。

最终摸索出来两个方案：通过Control Rig控制和通过姿势资产控制。

Control Rig：在Metahumans/Common/Face/CR_MetaHuman_HeadMovement_IK_Proc，那是个控制绑定蓝图，导入Metahuman预览网格体后出现如下UI界面，就可以手动调整面部表情了。关于该UI界面，UE文档中有详细教程

这样做有个致命缺陷：代码调用难度极高。Metahuman面部有51个控制点，每个点代表着一条曲线，虽说动画蓝图可以通过ControlRig接口驱动控制点变化，但是只通过一个音素去驱动多个Control Rig太过于复杂，且没有直接操作、所见即所得，不利于美术调试。

2. 姿势资产。在Metahumans/Common/Face/ARKit/PA_MetaHuman_ARKit_Mapping，这里烘培了许多姿势，可以通过调整权重来控制角色面部表情。这个方案较Control Rig最好的点就是交互直观且易懂，最重要的一点，它支持姿势混合后生成新姿势，这意味着我们可以为16种音素设立一一对应的唇形。

（Viseme Reference）

通过Modify Curve接口即可实现动画的调用