当前位置：首页 > news >正文

FunASR语音唤醒词技术：构建永远在线的语音助手

news 2026/3/26 14:29:17

FunASR语音唤醒词技术：构建永远在线的语音助手

你是否遇到过这样的困扰：智能音箱需要大声喊"你好小X"才能唤醒，车载语音助手在播放音乐时完全"听不见"你的指令，或者智能家居设备误把电视里的台词当成唤醒命令？这些问题的核心，在于语音唤醒词（Keyword Spotting，KWS）技术的精准度与实时性不足。本文将介绍如何使用FunASR开源工具包，构建一个低功耗、高识别率、永远在线的语音唤醒系统。

读完本文，你将能够：

理解语音唤醒技术的核心挑战与解决方案
掌握FunASR中4种唤醒模型的选型与部署
使用Python快速实现自定义唤醒词识别
优化唤醒系统的响应速度与抗干扰能力

语音唤醒的技术痛点与FunASR解决方案

语音唤醒是所有语音交互系统的第一道门槛，它需要在保持"永远在线"的同时，兼顾识别准确率、响应速度和设备功耗。传统唤醒方案往往面临三大矛盾：

灵敏度与误唤醒的平衡：提高唤醒灵敏度会导致误触发增加，降低灵敏度则可能漏检
实时性与计算成本的矛盾：本地计算资源有限，但云端传输会带来延迟
多场景适应性挑战：家庭、车载、户外等不同环境的噪声特性差异巨大

FunASR作为阿里巴巴达摩院开源的端到端语音识别工具包，提供了完整的语音唤醒解决方案。通过分析README_zh.md可知，FunASR在2024年9月25日发布了4种语音唤醒模型，包括：

fsmn_kws：基于FSMN（Feedforward Sequential Memory Network）的轻量级模型
fsmn_kws_mt：多任务版本，支持同时识别多个唤醒词
sanm_kws：基于SANM（Structured Attention with Memory）的高精度模型
sanm_kws_streaming：流式版本，适合实时交互场景

这些模型经过5000小时中文语音数据训练，最小模型仅0.7M大小，可在资源受限的嵌入式设备上高效运行。

FunASR唤醒词技术的核心架构

FunASR的语音唤醒系统采用CTC（Connectionist Temporal Classification）框架，结合前缀解码算法实现高效关键词检测。其核心架构包含三个部分：

1. 特征提取与前端处理

语音信号首先经过特征提取模块，转换为梅尔频谱特征。这一步在funasr/utils/kws_utils.py中实现，通过extract_fbank函数完成。特征提取后会进行数据增强和归一化处理，以提高模型的鲁棒性。

2. 神经网络编码器

FunASR提供两种主流编码器架构：

FSMN编码器：在fsmn_kws/model.py中实现，采用前馈时序记忆网络，适合资源受限场景
SANM编码器：在sanm_kws_streaming/model.py中实现，引入结构化注意力机制，精度更高

以FSMN模型为例，其核心代码如下：

@tables.register("model_classes", "FsmnKWS") class FsmnKWS(torch.nn.Module): def __init__(self, specaug, normalize, encoder, ctc, ...): self.specaug = specaug # 数据增强 self.normalize = normalize # 特征归一化 self.encoder = encoder # FSMN编码器 self.ctc = ctc # CTC损失函数 def forward(self, speech, speech_lengths, text, text_lengths): # 特征增强与归一化 if self.specaug is not None and self.training: speech, speech_lengths = self.specaug(speech, speech_lengths) if self.normalize is not None: speech, speech_lengths = self.normalize(speech, speech_lengths) # 编码器前向传播 encoder_out = self.encoder(speech) # CTC损失计算 loss_ctc, cer_ctc = self._calc_ctc_loss(encoder_out, encoder_out_lens, text, text_lengths) return loss_ctc, cer_ctc

3. CTC前缀解码

解码模块在funasr/utils/kws_utils.py中实现，KwsCtcPrefixDecoder类采用CTC前缀 beam search算法，高效检测关键词。其核心是beam_search函数，通过维护多个候选路径，在保证准确率的同时提高解码速度：

def beam_search(self, logits, logits_lengths, keywords_tokenset, score_beam_size=3, path_beam_size=20): maxlen = logits.size(0) ctc_probs = logits cur_hyps = [(tuple(), (1.0, 0.0, []))] # (prefix, (pb, pnb), nodes) # 逐帧解码 for t in range(0, maxlen): probs = ctc_probs[t] # 当前帧概率分布 # 候选token筛选 top_k_probs, top_k_index = probs.topk(score_beam_size) # 路径扩展与剪枝 next_hyps = defaultdict(lambda: (0.0, 0.0, [])) for s in filter_index: ps = probs[s].item() for prefix, (pb, pnb, cur_nodes) in cur_hyps: # 更新路径概率 # ... # 路径剪枝，保留最优路径 next_hyps = sorted(next_hyps.items(), key=lambda x: (x[1][0] + x[1][1]), reverse=True) cur_hyps = next_hyps[:path_beam_size] return hyps

快速上手：使用FunASR构建自定义唤醒系统

下面我们将演示如何使用FunASR快速构建一个"你好小范"的自定义唤醒系统，整个过程只需三步：

步骤1：环境准备与安装

首先克隆FunASR仓库：

git clone https://gitcode.com/gh_mirrors/fu/FunASR cd FunASR

安装依赖：

pip install -r requirements.txt

步骤2：模型选择与加载

根据应用场景选择合适的模型。对于嵌入式设备，推荐使用轻量级的fsmn_kws模型：

from funasr import AutoModel # 加载预训练模型 model = AutoModel(model="fsmn_kws", model_repo="iic/speech_sanm_kws_phone-xiaoyun-commands-online")

步骤3：自定义唤醒词与推理

使用inference接口进行唤醒词检测，支持传入自定义关键词列表：

# 自定义唤醒词 keywords = "你好小范,小爱同学,天猫精灵" # 音频文件推理 results, _ = model.inference( data_in="test.wav", keywords=keywords, output_dir="./outputs" ) # 打印结果 for result in results: print(f"检测结果: {result['text']}")

推理结果将保存在./outputs/detect目录下，包含检测到的唤醒词及置信度分数。

模型优化与部署建议

为了在实际应用中获得最佳性能，需要根据具体场景进行模型优化：

1. 模型选型策略

模型类型	适用场景	优点	缺点
fsmn_kws	资源受限设备	模型小，速度快	精度相对较低
sanm_kws	中高端设备	精度高	计算量大
sanm_kws_streaming	实时交互场景	低延迟，流式处理	内存占用较高