NVBench:首个双语非语言发声合成评测基准,填补AI语音情感表达空白
1. 项目概述:为什么需要一个“非语言发声”的评测基准?
如果你关注过近几年的语音合成技术,无论是TTS(文本转语音)还是歌声合成,你会发现一个明显的趋势:合成语音的自然度和表现力已经达到了前所未有的高度。我们可以轻松合成出清晰、流畅、甚至带有特定情感的朗读语音。然而,当我们把目光投向更广阔的“声音”世界时,会发现一个巨大的空白——那些没有明确语义,却承载着丰富信息的“非语言发声”。
什么是非语言发声?它不是说话,也不是唱歌,而是人类在表达情绪、反应、状态时发出的声音。比如,一声恍然大悟的“啊哈!”,一阵尴尬的咳嗽,疼痛时的倒吸冷气,思考时的“嗯…”,或者开心的轻笑、悲伤的抽泣。这些声音构成了我们日常交流中不可或缺的“背景音”和情绪放大器。在影视、游戏、虚拟人交互、心理治疗辅助乃至智能车载系统里,高质量的非语言发声合成能极大地提升沉浸感和真实感。
但问题来了:当前主流的语音合成评测基准,如MOS(平均意见分)、CMOS(比较平均意见分),几乎全部聚焦于语音的“可懂度”和“自然度”。一个合成的声音是否像真人,发音是否准确,是这些基准的核心。它们并不关心,也无法有效衡量一声叹息是否足够“疲惫”,一声轻笑是否足够“俏皮”。现有的客观指标,如梅尔倒谱失真(MCD)、基频轨迹误差(F0 RMSE),也都是为有音素、有旋律结构的语音设计的,对非语言发声这种高度依赖复杂声学特征和上下文情感的信号,几乎束手无策。
这就是“NVBench”诞生的背景。作为首个公开的双语(中英文)非语言发声语音合成评测基准,它试图填补这个关键的评价空白。它不仅仅是一个数据集,更是一套完整的评测体系,旨在回答一个核心问题:我们如何科学、量化地评估一个合成出来的“非语言声音”到底好不好,像不像?
我最初接触到这个领域,是在为一个交互式叙事项目寻找合适的“环境音效”和“角色反应音”时。我们发现,市面上通用的TTS引擎根本无法生成令人信服的、与剧情匹配的非语言声音,而手动录制又成本极高且不灵活。那时我就意识到,这个细分领域的工具和标准是缺失的。NVBench的出现,就像为这片混沌的领域投下了一束光,它定义了问题,提供了数据,更重要的是,它建立了一套大家都能“坐下来谈谈”的评测语言。
2. NVBench核心设计思路与数据构建解析
构建一个评测基准,尤其是针对“非语言发声”这种主观性强、定义模糊的对象,其核心挑战在于如何将主观感知“客观化”、“结构化”。NVBench的设计思路体现了从数据采集、标注到评测指标的全链条思考。
2.1 数据采集:定义“非语言发声”的边界与多样性
首先,必须明确数据范围。NVBench没有试图囊括所有声音(那会变成环境音库),而是聚焦于人类发声器产生的、非语言的、常用于传递情感或状态的声音。这一定义排除了乐器声、动物叫声和纯粹的生理噪音(如鼾声)。
数据来源上,NVBench采用了专业声优在录音棚内录制的方式,以确保音质纯净、可控。这里的一个关键设计是情境引导。与让声优凭空发出某种声音不同,NVBench为每一种非语言发声类型设计了具体的情境脚本。
例如,对于“轻笑”这个类别,情境脚本可能是:“你听到朋友讲了一个有点冷但无伤大雅的笑话,你报以礼貌的、短暂的轻笑。” 而对于“疼痛的吸气声”,脚本可能是:“你的手指不小心被抽屉夹了一下,瞬间的刺痛让你倒吸一口冷气。” 这种方法能有效引导声优产生更自然、更贴合真实场景的发声,避免了表演的夸张或空洞。
在多样性方面,NVBench考虑了以下几个维度:
- 发声类型:涵盖了惊叹、疑问、肯定、否定、思考、疼痛、愉悦、尴尬、醒悟等数十种核心情感或状态对应的发声。
- 说话人:包含了不同性别、年龄段的说话人,以覆盖声音特征的多样性。
- 语言文化背景:这是“双语”特性的体现。同一个非语言概念(如表示肯定的“嗯”),在中文和英文语境下,其发声方式、时长、音调曲线可能存在细微但可感知的差异。NVBench分别采集了中文母语者和英文母语者在对应情境下的发声,为跨语言模型研究提供了可能。
- 强度与时长:同一种发声(如咳嗽),有轻微的清嗓和剧烈的咳嗽之分,NVBench也对此进行了采样。
2.2 数据标注:从粗糙标签到精细感知特征
原始音频采集后,粗糙的类别标签(如“咳嗽”、“轻笑”)是远远不够的。NVBench的亮点在于其多层次、精细化的标注体系:
- 基础元数据标注:包括发声类别、说话人ID、录制情境、语言等。
- 声学特征提取与标注:自动提取并记录每段音频的底层声学参数,如:
- 基频(F0)轮廓:反映声音的音高变化。一声惊喜的“哇!”通常有陡升的F0,而一声低沉的“唉…”则F0较低且平缓。
- 能量(振幅)包络:反映声音的响度变化。笑声通常有起伏的能量包络,而吸气声则可能是一个平滑的能量上升。
- 频谱特征:如梅尔频谱,反映声音的音色。不同情绪下的非语言发声,其频谱分布会有差异。
- 感知特征标注(核心):这是NVBench最具价值的部分。它聘请了多名经过训练的标注员,对每段音频在多个感知维度上进行评分。这些维度可能包括:
- 情感效价:从非常消极到非常积极。
- 情感唤醒度:从非常平静到非常激动。
- 自然度:听起来像真人发出的程度。
- 典型性:作为该类非语言发声的典型代表程度。
- 强度:该发声所表达情绪的强烈程度。
通过这种多维标注,一段“轻笑”音频就不再只是一个标签,而是一个拥有丰富感知特征向量的数据点。这为后续训练更细粒度的合成模型和设计更精准的评测指标奠定了基础。
2.3 数据集划分与挑战任务设计
NVBench将数据划分为标准的训练集、验证集和测试集。其中,测试集是保密的,仅用于公平评测,防止模型过拟合到测试数据上。
它主要支持两大挑战任务:
- 非语言发声合成:给定文本描述(如“[轻笑]”或更细粒度的“[轻松、短暂的轻笑]”)和/或目标说话人,生成对应的非语言发声音频。
- 非语言发声转换:给定一段源非语言发声音频和目标任务描述(如“将这段咳嗽声转换为同一个人尴尬的咳嗽”),生成转换后的音频。
3. 评测体系:超越MOS的多元评价维度
NVBench摒弃了单一依赖主观MOS分的做法,构建了一个主客观结合、多层次的全新评测体系。这套体系是其实用价值的核心体现。
3.1 客观评测指标:寻找声音的“指纹”
对于非语言发声,传统TTS的客观指标基本失效。NVBench引入或设计了一系列新的客观指标,试图从不同角度捕捉合成声音与真实声音的差异:
- 声学特征匹配度:
- F0轮廓相似度:计算合成音频与真实音频在基频轨迹上的动态时间规整(DTW)距离或相关系数。一个好的叹息声应该有一个相似的、缓慢下降的F0轮廓。
- 能量包络相似度:同样使用DTW或相关度计算,衡量响度变化模式是否一致。
- 梅尔频谱失真(MCD)的变体:虽然传统MCD用于语音,但可以调整帧长和梅尔滤波器组参数,使其更适合非语言发声的宽带频谱特性,衡量整体音色相似度。
- 嵌入空间相似度:
- 这是更“高级”的指标。使用在大规模音频数据上预训练好的神经网络(如Wav2Vec 2.0, HuBERT)提取合成和真实音频的深层特征嵌入(Embedding),然后计算它们在嵌入空间中的余弦相似度或欧氏距离。这个指标能捕捉到人类感知上更抽象的相似性,例如“是否同属人类发声”、“情感色彩是否接近”。
- 分类器置信度:
- 训练一个强大的非语言发声分类器(基于真实数据)。将合成音频输入该分类器,观察其被正确分类为该类别的置信度分数。高分意味着合成音频具备了足够强的、能被机器识别的类别特征。
注意:客观指标永远只能作为参考。它们可能无法完全对应人类的主观感受。例如,两个声学特征非常接近的“轻笑”,可能一个听起来很自然,另一个却显得做作,因为微妙的相位、噪声特性或极细微的时序差异影响了感知。因此,客观指标必须与主观评测结合使用。
3.2 主观评测协议:标准化的人类评判
主观评测是黄金标准,但必须标准化以避免偏差。NVBench设计了一套严谨的主观评测协议:
- 评测环境:要求评测者在安静的环境下,使用质量一致的耳机进行。
- 评测任务:
- 自然度评测(MOS):播放一段音频,让评测者从1-5分评价其听起来像真人发声的自然程度。
- 相似度评测(SMOS):播放一对音频(合成 vs. 真实),让评测者评价两者的相似度。
- 情感匹配度评测:播放一段音频和一段文本描述(或一个情境),让评测者评价音频与描述/情境的情感匹配程度。
- 评测者筛选与训练:评测者需要经过筛选和简单训练,以确保他们对非语言发声有一定的感知一致性。通常需要一定数量的有效评测者(如20人以上)来平均掉个人差异。
- 评测界面设计:评测界面需要清晰、无引导性,问题设置中立,音频播放顺序随机化。
3.3 双语评测的特殊考量
“双语”特性给评测带来了额外维度。除了分别对中英文合成结果进行上述评测外,NVBench还可能设计跨语言一致性评测。例如,用同一个模型分别合成中文语境和英文语境下的“肯定回应”(如中文的“嗯”和英文的“Mm-hmm”),评测其是否在保留说话人音色的同时,恰当地体现了语言文化带来的发声差异。这要求模型不仅学习发声本身,还要理解文化语境对发声方式的微妙影响。
4. 基于NVBench的模型构建与实践要点
有了基准和数据集,下一步就是如何构建一个能在此基准上取得好成绩的模型。这并非简单的TTS模型微调,而需要全新的架构设计思路。
4.1 模型架构选型:从自回归到扩散模型
当前,主流的高质量语音合成方案有以下几种,它们各有优劣,适用于非语言发声合成:
自回归模型(如VITS, FastSpeech 2):
- 原理:基于Transformer或Flow的架构,将输入文本(或音素)序列逐步生成梅尔频谱或波形。
- 优势:技术成熟,在TTS上效果稳定,对韵律和时长控制较好。
- 挑战:非语言发声没有明确的文本或音素序列作为输入。需要将输入(如情感标签、强度标签)转化为一个抽象的“条件序列”,这对模型的表征能力要求极高。同时,自回归生成速度较慢。
- 适用场景:适合需要与前后语音片段在韵律上紧密衔接的非语言发声(如在一句话中间插入的思考声“嗯…”)。
生成对抗网络(GAN)模型(如HiFi-GAN, StyleGAN):
- 原理:一个生成器负责从随机噪声或条件向量生成音频,一个判别器负责判断音频是真实的还是生成的,两者对抗学习。
- 优势:可以生成非常高质量、细节丰富的音频,速度快。
- 挑战:训练不稳定,容易模式崩溃(生成的声音多样性差)。对于非语言发声这种需要精确控制细微情感变化的任务,控制性相对较弱。
- 适用场景:适合生成独立的、高质量的单次非语言发声(如一声惊叹)。
扩散模型(如DiffWave, WaveGrad):
- 原理:通过一个逐步去噪的过程,将随机高斯噪声转化为目标音频。
- 优势:目前音频生成领域的SOTA,能生成极高保真度和自然度的声音,在歌声合成中已证明其强大。对复杂声学模式的建模能力极强。
- 挑战:采样速度慢(尽管有加速技术),计算资源消耗大。需要精心设计条件注入机制。
- 适用场景:当前非语言发声合成的最有前景的方向。尤其适合需要高度自然度和丰富细节的各类发声。
实操建议:对于刚入门的研究者或开发者,可以从在VITS或FastSpeech 2框架上进行改造开始,将文本编码器替换为情感标签/描述文本的编码器,使用NVBench数据进行微调,这是一个相对稳妥的起点。追求最高质量则必须探索基于扩散模型的方案。
4.2 条件信息的设计与注入
模型输入什么,决定了它能输出什么。非语言发声合成的条件信息设计是关键创新点。
- 类别标签:最基础的条件,如
[cough],[laugh]。但过于粗糙。 - 细粒度属性向量:将NVBench标注的感知特征(效价、唤醒度、强度等)作为连续值条件向量输入。这能让模型学习到“轻笑”内部的光谱变化。
- 文本描述:使用自然语言描述,如 “a soft, hesitant chuckle followed by a sigh”。这提供了最强的灵活性和表现力,但要求模型具备强大的文本理解能力。可以结合CLIP等文本-音频跨模态模型来提取描述的条件嵌入。
- 参考音频:提供一段简短的真实非语言发声作为参考,让模型学习其风格并生成相似或转换后的声音。这通常用于声音转换任务。
- 上下文音频:对于需要插入对话中的非语言发声,提供前后几秒的语音上下文作为条件,有助于生成在韵律、节奏上更贴合的发声。
在模型内部,这些条件信息需要通过交叉注意力(Cross-Attention)、特征拼接(Concatenation)或自适应层归一化(AdaIN)等技术,有效地注入到生成过程的每一步。
4.3 训练策略与损失函数
训练一个非语言发声合成模型,损失函数的设计需要兼顾多个目标:
- 重建损失:如波形级的L1损失、频谱级的L1或MSE损失,确保生成音频在信号层面接近目标。
- 对抗损失:如果使用GAN,需要判别器损失,提升生成音频的整体真实感。
- 特征匹配损失:要求生成器中间层的特征与真实音频在判别器中间层的特征分布相似,有助于稳定训练和提升质量。
- 感知损失:使用预训练好的音频网络(如VGGish、预训练的HuBERT)提取特征,计算特征空间的距离。这能更好地对齐人类听觉感知。
- 对比损失:对于需要区分不同细粒度类别的任务,可以使用对比学习,让模型学会将相似感知的发声在嵌入空间中拉近,将不同的推远。
一个实用的训练流程可能是:
- 使用大量通用语音数据(如LibriTTS)预训练一个基础TTS或音频生成模型,让其学会合成人类声音的基本模式。
- 在NVBench数据上,用上述精心设计的条件信息和多目标损失函数进行微调。
- 在验证集上,综合使用客观指标和人工试听来调整超参数和选择模型。
5. 应用场景、挑战与未来展望
NVBench的建立,不仅仅是为了学术比拼,更是为了推动一系列实际应用的发展。
5.1 核心应用场景
- 沉浸式娱乐内容创作:
- 游戏:为NPC生成实时、动态的非语言反应(受伤的闷哼、发现宝藏的惊喜声、思考的沉吟),大幅提升游戏世界的真实感。
- 影视与动画配音:自动生成或辅助生成背景人群的嘈杂声、角色的气息声、情绪反应音,降低后期制作成本。
- 有声书与广播剧:为旁白和对话添加丰富的情绪音效,使讲述更加生动。
- 人机交互与虚拟数字人:
- 让虚拟助手、车载语音、智能客服在回应时不仅用语言,还能用“嗯”、“哦”等声音进行即时反馈,使对话更自然、更有“人情味”。
- 虚拟数字人在直播或互动中,能根据对话内容实时产生匹配的笑声、惊叹声,增强表现力和亲和力。
- 辅助技术与医疗:
- 为言语障碍者开发沟通设备,不仅合成语言,还能合成表达基本情绪和需求的声音。
- 在心理治疗或情绪识别辅助工具中,生成或分析特定的非语言声音。
5.2 当前面临的主要挑战
- 数据稀缺与长尾问题:尽管NVBench是重要一步,但其数据规模相对于复杂的非语言发声世界仍是九牛一毛。许多罕见或极其细微的发声类型(如不同文化特有的感叹词)数据仍然匮乏。
- 主观评价的标准化难题:如何设计出更高效、更可靠、成本更低的主观评测方法,仍然是一个挑战。众包评测的质量控制、文化差异对感知的影响都是需要持续研究的问题。
- 可控性与创造性的平衡:模型如何既能精确响应细粒度的条件控制(生成“强度为0.7的愉悦轻笑”),又能在给定条件下保留一定的创造性和随机性(避免所有“轻笑”听起来都一样)?
- 与语言合成的无缝集成:如何让非语言发声自然地嵌入到连续的语音流中,在韵律、节奏、音色上完美过渡,这是一个系统工程问题。
5.3 未来可能的发展方向
从我个人的实践和观察来看,这个领域下一步的突破可能在于:
- 大模型与基础模型:像ChatGPT统一了NLP任务一样,未来可能会出现“音频基础模型”。它在大规模、多模态(音频、文本、音乐)数据上预训练,能够通过提示(Prompting)或指令微调(Instruction Tuning)的方式,零样本或少样本地完成包括非语言发声合成在内的多种音频生成任务。NVBench将成为评测这类模型在细分领域能力的关键标尺。
- 个性化与上下文感知:模型不仅学习通用的非语言发声模式,还能根据特定用户的音色、习惯进行个性化适配,并能深度理解当前对话的完整上下文,生成最恰当、最个性化的反应声音。
- 跨模态生成与驱动:结合视觉信息(如面部表情、肢体动作)来生成或驱动非语言发声,实现音画同步的虚拟人生成。
- 评测指标的进一步演进:出现更强大的、与人类主观评价相关性更高的客观指标,或许会结合脑神经科学的研究,直接对音频信号进行“感知编码”评价。
NVBench作为一个开创性的基准,已经为这片蓝海画下了第一张航海图。它告诉我们目标在哪里,以及目前我们离目标还有多远。对于从业者而言,无论是研究者还是应用开发者,深入理解这个基准的内涵,利用它提供的数据和工具去探索、去创新,无疑是在下一代人机交互和内容创作竞争中抢占先机的关键。
