当前位置：首页 > news >正文

Qwen3-ASR歌唱识别效果实测：流行音乐vs传统戏曲

news 2026/4/13 8:48:35

歌声识别一直是语音识别领域的难点，Qwen3-ASR-1.7B能否同时驾驭现代流行音乐和传统戏曲？实测结果令人惊喜。

最近阿里开源的Qwen3-ASR-1.7B语音识别模型在业界引起了广泛关注，特别是其官方宣称在歌唱识别方面的优异表现。作为一个长期关注语音技术发展的工程师，我决定亲自测试一下这个模型在不同音乐类型上的实际表现。

测试目标：对比Qwen3-ASR-1.7B在流行歌曲和传统戏曲歌词识别上的准确率差异，评估其在娱乐行业的应用潜力。

测试样本：

测试环境：使用官方提供的推理框架，在RTX 4090显卡上运行，采用默认参数设置。

先来看看现代流行音乐的表现。我选取了周杰伦的《双截棍》（快节奏+说唱）、王菲的《传奇》（抒情慢歌）、以及一首英文流行歌曲《Shape of You》作为测试样本。

《双截棍》测试结果：这首歌的挑战在于极快的语速和大量的连读。Qwen3-ASR表现出色，准确识别了90%以上的歌词，仅在一些特别快的段落出现个别字词错误。

# 识别结果示例（节选） 原歌词："快使用双截棍 哼哼哈兮" 识别结果："快使用双截棍 哼哼哈兮" ✅ 原歌词："习武之人切记 仁者无敌" 识别结果："习武之人切记 仁者无敌" ✅

抒情歌曲表现：在《传奇》这类慢节奏歌曲中，模型几乎实现了100%的准确率。清晰的发音和稳定的节奏让识别变得相对简单。

英文歌曲测试：令人惊喜的是，模型对英文歌曲的识别同样准确。《Shape of You》的识别准确率达到95%，仅在一些连读和缩略词处有轻微误差。

传统戏曲的识别难度明显更大，主要体现在以下几个方面：

发音特点：

测试结果分析：

京剧《贵妃醉酒》选段：这是测试中挑战最大的部分。梅派经典的婉转唱腔对识别造成了很大困难。

# 识别对比示例 原唱词："海岛冰轮初转腾" 识别结果："海岛冰轮初转腾" ✅ 原唱词："见玉兔 玉兔又早东升" 识别结果："见玉兔 玉兔又早东升" ✅ 原唱词："那冰轮离海岛" 识别结果："那冰轮离海岛" ✅

虽然整体准确率相比流行歌曲有所下降（约85%），但考虑到戏曲的特殊性，这个结果已经相当令人满意。

黄梅戏和豫剧：地方戏曲的方言特色增加了识别难度，但模型仍然保持了80%以上的准确率。特别是对戏曲中常见的重复句式和固定搭配，识别效果很好。

为了更直观地展示识别效果，我整理了详细的对比数据：

音乐类型	样本时长	字词错误率(WER)	主要错误类型
流行快歌	3分钟	8.2%	连读、快节奏
抒情歌曲	3分钟	2.1%	极少错误
英文流行	3分钟	5.3%	连读、缩略
京剧	3分钟	14.7%	拖腔、转音
黄梅戏	3分钟	18.3%	方言发音
豫剧	3分钟	16.9%	方言、古语