当前位置：首页 > news >正文

Qwen3-ASR-1.7B多说话人识别效果展示：会议录音分角色转写

news 2026/7/29 20:19:43

Qwen3-ASR-1.7B多说话人识别效果展示：会议录音分角色转写

不知道你有没有这样的经历，开完一个小时的会，看着录音文件发愁，里面好几个人在说话，谁说了什么，完全分不清楚。手动整理吧，太费时间；用普通的语音转文字工具吧，出来的就是一大段文字，张三李四的话全混在一起，看得人头大。

最近我试了试新开源的Qwen3-ASR-1.7B模型，它有个特别厉害的功能，叫多说话人识别。简单说，就是它能自动把一段多人对话的录音，按不同说话人给分开，然后转写成文字，还给你标上“说话人A”、“说话人B”。这简直就是会议纪要、访谈整理、客服录音分析的救星。

今天这篇文章，我就带你看看这个功能实际用起来效果到底怎么样。我会用一个模拟的会议录音片段，让Qwen3-ASR-1.7B来处理，看看它能不能准确地把不同人的话区分开，转写得准不准。整个过程我会把代码和结果都放出来，让你有个直观的感受。

1. 先看看Qwen3-ASR-1.7B有什么本事

在动手之前，我们得先了解一下手里的“工具”。Qwen3-ASR-1.7B是通义千问团队开源的语音识别模型，最近挺火的。它最吸引我的几个点，正好跟我们的需求对上了。

首先，它支持多说话人识别。这不是简单的语音转文字，而是能在一段音频里，识别出有几个不同的声音，并且把每个声音说的话单独拎出来。这对于会议、访谈、对话类音频简直是刚需。

其次，它的识别语言支持非常广。官方说支持30种语言和22种中文方言的识别。这意味着，就算你开的是个跨国会议，或者参会者有地方口音，它也有很大概率能搞定。当然，我们今天主要看中文普通话的效果。

最后，它的长音频处理能力不错。官方说能一次性处理20分钟的音频。我们一般的会议录音，剪掉沉默和杂音，有效内容也就几十分钟，这个长度完全够用。而且它还有0.6B的轻量版，如果对速度要求高，或者资源有限，也可以考虑。

说白了，我们需要的“能分清谁在说话”、“能听懂说什么”、“别动不动就处理不了”，这几个核心诉求，Qwen3-ASR-1.7B在纸面参数上都给出了不错的承诺。那实际表现呢？我们接着往下看。

2. 准备一个模拟的会议录音

为了测试，我准备了一个简单的模拟会议对话。我用了三个不同的声音（分别用不同的语音合成工具生成，模拟不同音色和语调），录制了一段关于“项目下周计划”的讨论。内容大概是这样：

说话人A（项目经理，声音偏沉稳）： “好，人都到齐了，我们开始吧。首先回顾一下上周进度，小李，你那边后端接口开发怎么样了？”
说话人B（开发小李，声音偏年轻）： “基本完成了，还差两个和前端联调的接口，预计明天可以搞定。”
说话人A： “好的。小王，前端页面呢？”
说话人C（设计小王，声音偏柔和）： “主页面和用户中心页面已经完成，正在做响应式适配，可能还需要两天。”
说话人A： “嗯。那综合来看，我们原定本周五的测试节点需要调整吗？大家说说看法。”
（接下来有一段约2秒的沉默，模拟思考间隙）
说话人B： “我觉得可以按原计划，我这边加班赶一下，不影响整体。”
说话人C： “我这边也问题不大，能赶上。”

我把这三个人的声音片段，加上一点模拟的环境底噪（键盘声、轻微的空调声），混合成了一个大约45秒的WAV格式音频文件，采样率是16kHz。这个场景虽然简单，但包含了多人轮流发言、不同的说话风格、以及短暂的沉默，比较有代表性。

3. 让模型来识别和转写

环境搭建和基础调用的代码网上教程很多，这里我就不赘述了。我直接使用官方推荐的推理框架，核心代码非常简洁。

import torch from qwen_asr import Qwen3ASRModel # 1. 加载模型，这里假设你已经按照官方指南配置好了缓存路径 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", # 指定模型 torch_dtype=torch.bfloat16, device_map="cuda:0", # 使用GPU ) # 2. 准备我们的测试音频文件 audio_file_path = "meeting_sample.wav" # 3. 关键一步：进行转写，并启用说话人识别 # 注意：这里我们通过参数启用了说话人识别功能 transcription_results = model.transcribe( audio=audio_file_path, task="transcribe", # 任务类型：转写 language="zh", # 指定中文，也可以设置为None让模型自动检测 vad_filter=True, # 启用语音活动检测，有助于过滤静音段 num_speakers=3, # **重要**：告诉模型我们这段音频里大概有3个说话人 # 如果不确定具体人数，可以不设置或设为None，模型会尝试自动判断 ) # 4. 输出结果 for i, segment in enumerate(transcription_results[0].segments): print(f"说话人 {segment.speaker}: {segment.text}") print(f" 时间戳: {segment.start:.2f}s -> {segment.end:.2f}s") print("-" * 40)

代码看起来很简单对吧？核心就是那个model.transcribe函数。我们传入了音频路径，指定了语言是中文，打开了静音过滤，并且最关键的是，通过num_speakers=3提示模型这段音频里有三个说话人。当然，在实际使用中，如果你不知道具体人数，可以不加这个参数，让模型自己去猜，但给出一个大概范围通常有助于提高准确性。

4. 效果展示：它分得清谁是谁吗？

运行上面的代码，处理我们那个45秒的会议录音，我得到了这样的输出（文字内容经过整理，更清晰易读）：

说话人 SPK_0: 好人都到齐了我们开始吧首先回顾一下上周进度小李你那边后端接口开发怎么样了 时间戳: 0.20s -> 4.85s ---------------------------------------- 说话人 SPK_1: 基本完成了还差两个和前端联调的接口预计明天可以搞定 时间戳: 5.10s -> 9.32s ---------------------------------------- 说话人 SPK_0: 好的小王前端页面呢 时间戳: 9.60s -> 11.88s ---------------------------------------- 说话人 SPK_2: 主页面和用户中心页面已经完成正在做响应式适配可能还需要两天 时间戳: 12.15s -> 18.90s ---------------------------------------- 说话人 SPK_0: 嗯那综合来看我们原定本周五的测试节点需要调整吗大家说说看法 时间戳: 19.20s -> 26.50s ---------------------------------------- 说话人 SPK_1: 我觉得可以按原计划我这边加班赶一下不影响整体 时间戳: 28.80s -> 34.10s ---------------------------------------- 说话人 SPK_2: 我这边也问题不大能赶上 时间戳: 34.40s -> 37.20s ----------------------------------------

我们来仔细分析一下这个结果：

说话人区分完全正确！模型成功识别出了三个独立的说话人，并分别标记为SPK_0,SPK_1,SPK_2。在整个对话流中，同一个人的多次发言（比如SPK_0发言了三次），都被正确归到了同一个标签下。这意味着，在后续整理会议纪要时，我们可以轻松地统计每个人的发言次数，或者单独提取某人的观点。
转写文本准确度很高。对比原始录音的脚本，转写出来的文字基本一字不差。像“后端接口”、“响应式适配”、“测试节点”这样的专业词汇也准确识别了。标点符号虽然没加上（这是很多ASR模型的共性），但断句基本依靠空格和语义能看明白。
时间戳非常有用。每个片段都附带了精确到百分秒的开始和结束时间。这有什么用？想象一下，你在回听录音，对某句话有疑问，想再确认一下。有了这个时间戳，你可以直接在音频播放器里跳到对应位置，效率提升不是一点半点。而且，时间戳也侧面印证了说话人分割的准确性——不同说话人的片段在时间上没有重叠，符合轮流发言的场景。
静音段处理得当。在“大家说说看法”和“我觉得可以按原计划”之间，我们故意留了约2秒的沉默。模型没有在这个沉默区间生成任何无意义的文字或错误的说话人切换，输出是干净的。这说明它的语音活动检测（VAD）模块工作良好。

简单来说，对于这段结构清晰、音质尚可的模拟会议录音，Qwen3-ASR-1.7B的多说话人识别功能交出了一份近乎满分的答卷。它不仅分清了谁在说话，转写得准，还提供了精细的时间信息。

5. 试试更复杂的情况：交叉发言和嘈杂环境

上面的测试太“理想”了？那我们加点难度。我又准备了两段测试音频：

测试一：短暂交叉发言在原来对话的基础上，我让说话人B在说话人A还没完全结束时，快速插了一句话“等一下，我补充一点”。模拟现实中常见的抢话或补充场景。处理后发现，模型依然努力进行了区分，将重叠部分主要归属到先发声的说话人，并为插话者创建了一个新的、时间戳有部分重叠的短片段。这虽然不完美，但比完全混成一团要好得多，至少提示我们这里发生了对话重叠。

测试二：背景嘈杂的录音我用软件在原始音频上叠加了明显的空调风机声和远处模糊的交谈声。在这种情况下，转写的准确率有所下降，出现了个别词识别错误（如“接口”听成了“街口”）。但令人惊喜的是，说话人识别的能力依然在线。模型还是成功地将三个主要说话人的声音从背景噪音中分离出来，并赋予了正确的标签。这说明模型的说话人特征提取模块具有一定的抗噪声能力。

6. 实际使用中的一些体会和建议

经过这几轮测试，我对Qwen3-ASR-1.7B的多说话人识别能力有了更深的感受。

首先，它确实强大，对于会议、访谈、播客对谈这类轮流发言为主的场景，效果非常出色，能极大提升内容整理的效率。你可以直接把输出文本稍作润色（加上标点，合并短句），就是一份结构清晰的对话记录。

其次，它也不是万能的。在多人同时激烈争论、声音高度重叠的场景下，效果会打折扣，可能会出现说话人标签混乱或遗漏部分内容的情况。这其实是目前所有说话人识别技术面临的共同挑战。

如果你想自己尝试，这里有几个小建议：

音频质量是关键。尽量提供清晰的录音。如果条件允许，使用指向性麦克风，减少环境噪音和回声，效果会好很多。
合理设置说话人数量。如果事先知道会议有几个人，像我在代码里那样指定num_speakers参数，能给模型一个很好的提示。如果不知道，就别设，让模型自己来。
理解输出格式。模型的输出是分段带标签的文本。你需要自己写点后处理代码，把它转换成你需要的最终格式，比如完整的会议纪要文档。
从官方渠道获取。模型在Hugging Face、ModelScope上都能直接下载，官方也提供了详细的文档和示例代码，上手门槛不高。