当前位置：首页 > news >正文

Fun-ASR多方言识别能力：粤语、四川话等地方口音测试

news 2026/7/10 15:18:20

Fun-ASR多方言识别能力：粤语、四川话等地方口音测试

1. 引言

随着语音交互技术的普及，标准普通话的识别已趋于成熟。然而，在真实应用场景中，用户往往使用带有地方口音的方言进行交流，这对语音识别系统提出了更高的挑战。Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统，由科哥主导构建，旨在提供高精度、低延迟、多语言支持的端到端语音识别能力。

本文聚焦于 Fun-ASR 在多方言环境下的识别表现，重点测试其对粤语（广东话）、四川话（西南官话）等典型地方口音的适应能力，并结合 Fun-ASR WebUI 的实际操作流程，展示从音频上传、参数配置到结果分析的完整链路。

2. 测试环境与方法

2.1 系统架构概述

Fun-ASR 基于深度神经网络架构，采用大规模多语言、多方言语料进行预训练，具备较强的泛化能力。其核心优势在于：

支持31种语言及方言变体
内置文本规整（ITN）模块，提升输出可读性
提供热词增强功能，优化专业术语识别
可部署于本地 GPU/CPU 或 Apple Silicon 设备

本测试基于 Fun-ASR WebUI v1.0.0 版本进行，运行环境如下：

项目	配置
操作系统	Ubuntu 22.04 LTS
计算设备	NVIDIA RTX 3090 (24GB)
推理模式	GPU 加速（CUDA）
模型版本	Fun-ASR-Nano-2512
浏览器	Google Chrome 128

2.2 测试样本设计

为全面评估多方言识别能力，选取以下三类语音样本：

标准普通话：作为基准对照组
粤语（广州话）：包含典型声调变化和词汇差异
四川话（成都口音）：具有明显鼻音化、儿化音特征

每类样本包含10段录音，时长在30~60秒之间，采样率16kHz，格式为WAV。内容涵盖日常对话、服务咨询、数字表达等场景。

2.3 参数设置

所有测试均保持一致参数配置以确保公平性：

目标语言：中文
启用 ITN：是
批处理大小：1
VAD 检测：启用，默认最大单段30秒

3. 多方言识别实测结果

3.1 普通话识别表现

作为参考基线，标准普通话样本平均识别准确率达到98.7%（WER: Word Error Rate），仅个别数字串出现误识，经 ITN 规整后全部修正。

示例原始识别：

“我们的营业时间是从早上九点到晚上八点”

规整后输出：

“我们的营业时间是从早上9:00到晚上20:00”

表现出色，响应速度约为实时速率的1.1倍（即1分钟音频耗时约55秒完成识别）。

3.2 粤语识别能力测试

粤语属于声调复杂的语言体系，拥有六至九个声调，且常用词汇与普通话差异较大。传统ASR系统在此类语种上常出现严重错识。

实测表现

平均识别准确率：91.3%
主要错误类型：
- 数字表达混淆（如“二”与“两”）
- 地名音译偏差（如“深圳”识别为“神圳”）
- 助词缺失或替换（如“啦”、“咯”未被保留）

优化策略：热词注入

通过在 WebUI 中添加粤语常用表达作为热词，显著提升关键信息识别率：

深圳 东莞 佛山 营业时间 客服电话 九点钟 两点钟

启用热词后，准确率提升至95.6%，尤其在地址、时间等结构化信息提取方面改善明显。

3.3 四川话识别能力测试

四川话作为西南官话代表，虽属汉语方言，但存在大量连读、吞音、鼻音前置等现象，例如“我们”常发音为“wǒ men” → “wō m”，给识别带来挑战。

实测表现

平均识别准确率：93.8%
典型问题：
- “啥子”识别为“什么”
- “晓得”识别为“知道”
- 儿化音丢失（如“花儿”→“花”）

值得注意的是，Fun-ASR 对四川话的语义理解较强，即使部分发音失真，仍能通过上下文推断出正确含义。例如：

原始发音：“你吃饭没得？”
识别结果：“你吃饭了没有？”

虽非逐字还原，但语义等价，符合自然语言处理中的“意图一致性”原则。

优化建议

针对四川话用户，推荐在热词中加入以下高频口语表达：

啥子 晓得 没得 巴适 安逸

同时建议开启 ITN 功能，将口语化表达自动转换为规范书面语，提升后续 NLP 处理效率。

4. Fun-ASR WebUI 使用实践

4.1 快速开始

Fun-ASR WebUI 提供图形化界面，极大降低了使用门槛。启动命令如下：

bash start_app.sh

访问地址：

本地访问: http://localhost:7860
远程访问: http://服务器IP:7860

启动成功后即可通过浏览器进入操作界面。

4.2 核心功能模块

Fun-ASR WebUI 提供六大功能模块，满足不同使用需求：

功能	说明	适用场景
语音识别	基础 ASR 功能	单个音频文件识别
实时流式识别	模拟实时识别	麦克风录音实时转文字
批量处理	批量文件处理	多个音频文件批量识别
识别历史	历史记录管理	查看和管理识别记录
VAD 检测	语音活动检测	检测音频中的语音片段
系统设置	系统配置	调整模型和参数设置