当前位置：首页 > news >正文

Qwen3-ASR-0.6B部署指南：Ubuntu20.04环境配置全流程

news 2026/7/29 2:27:27

Qwen3-ASR-0.6B部署指南：Ubuntu20.04环境配置全流程

1. 引言

语音识别技术正在改变我们与设备交互的方式，而Qwen3-ASR-0.6B作为通义千问团队推出的轻量级语音识别模型，为本地部署提供了全新的选择。这个模型支持52种语言和方言识别，包括中文普通话、英语、粤语等多种语言，特别适合需要隐私保护和离线使用的场景。

在Ubuntu 20.04系统上部署Qwen3-ASR-0.6B，你不需要深厚的技术背景，只要跟着本指南一步步操作，就能在自己的机器上搭建一个功能完整的语音识别系统。整个过程大概需要30-60分钟，取决于你的网络速度和硬件配置。

2. 环境准备与系统要求

在开始安装之前，我们先确认一下你的系统是否满足基本要求。Ubuntu 20.04是一个比较稳定的选择，但其他版本的Ubuntu或者Linux发行版也基本适用。

2.1 硬件要求

最低配置：

GPU：NVIDIA显卡，至少4GB显存（如GTX 1650）
内存：8GB系统内存
存储：至少10GB可用空间（用于模型文件和依赖包）

推荐配置：

GPU：NVIDIA RTX 3060或更高，8GB以上显存
内存：16GB系统内存
存储：20GB可用空间

2.2 软件要求

首先更新你的系统包列表，确保所有软件都是最新版本：

sudo apt update && sudo apt upgrade -y

安装一些基础工具和依赖：

sudo apt install -y python3-pip python3-venv git wget curl

检查NVIDIA驱动是否已安装：

nvidia-smi

如果这个命令报错或者没有显示显卡信息，你需要先安装NVIDIA驱动：

sudo ubuntu-drivers autoinstall sudo reboot

3. 创建Python虚拟环境

为了避免与系统已有的Python包发生冲突，我们创建一个独立的虚拟环境：

# 创建项目目录 mkdir qwen3-asr-project && cd qwen3-asr-project # 创建Python 3.8虚拟环境 python3 -m venv venv # 激活虚拟环境 source venv/bin/activate

激活虚拟环境后，你的命令行提示符前面应该会显示(venv)，表示现在处于虚拟环境中。

4. 安装核心依赖包

现在开始安装Qwen3-ASR运行所需的核心依赖。建议使用国内镜像源来加速下载：

pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install -U qwen-asr transformers --timeout=1000

如果你在中国大陆，可以使用清华源加速下载：

pip install -U qwen-asr transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

安装过程可能需要几分钟时间，取决于你的网络速度。

5. 模型下载与配置

Qwen3-ASR-0.6B模型文件大约1.8GB，你可以通过两种方式下载：

5.1 使用ModelScope下载（推荐国内用户）

pip install modelscope python -c " from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-ASR-0.6B') print(f'模型下载到: {model_dir}') "

5.2 使用Hugging Face下载

pip install huggingface_hub python -c " from huggingface_hub import snapshot_download model_dir = snapshot_download(repo_id='Qwen/Qwen3-ASR-0.6B') print(f'模型下载到: {model_dir}') "

下载完成后，记下模型保存的路径，后面会用到。

6. 基础使用示例

现在我们来测试一下模型是否正常工作。创建一个简单的测试脚本：

# test_asr.py import torch from qwen_asr import Qwen3ASRModel # 初始化模型 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-0.6B", dtype=torch.float16, # 使用半精度减少显存占用 device_map="auto", # 自动选择设备 max_new_tokens=256, # 最大生成token数 ) # 测试音频转录 results = model.transcribe( audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", language=None, # 自动检测语言 ) print(f"检测到的语言: {results[0].language}") print(f"识别结果: {results[0].text}")

运行测试脚本：

python test_asr.py

如果一切正常，你应该能看到类似这样的输出：

检测到的语言: English 识别结果: Even in the face of unprecedented market volatility, the company's strategic investments in emerging technologies continued to yield positive returns.

7. 常见问题解决

在部署过程中可能会遇到一些常见问题，这里提供解决方案：

7.1 显存不足错误

如果遇到CUDA out of memory错误，可以尝试以下方法：

# 减少批量大小 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-0.6B", dtype=torch.float16, device_map="auto", max_inference_batch_size=1, # 减少批量大小 )

7.2 下载速度慢

如果模型下载速度很慢，可以设置环境变量使用国内镜像：

export HF_ENDPOINT=https://hf-mirror.com

或者使用ModelScope下载，它对国内用户更友好。

7.3 依赖冲突

如果遇到包冲突问题，可以尝试重新创建虚拟环境：

deactivate # 退出当前环境 rm -rf venv # 删除旧环境 python3 -m venv venv source venv/bin/activate

然后按照顺序重新安装依赖。

8. 进阶配置建议

8.1 使用vLLM加速推理

如果你需要更高的推理速度，可以安装vLLM后端：

pip install -U qwen-asr[vllm]

使用vLLM后端的示例：

from qwen_asr import Qwen3ASRModel model = Qwen3ASRModel.LLM( model="Qwen/Qwen3-ASR-0.6B", gpu_memory_utilization=0.7, # GPU内存使用率 max_new_tokens=512, )

8.2 批量处理音频文件

如果你需要处理多个音频文件，可以使用批量处理：

audio_files = [ "audio1.wav", "audio2.wav", "audio3.wav" ] results = model.transcribe( audio=audio_files, language=["Chinese", "English", "Chinese"] # 指定每个音频的语言 ) for i, result in enumerate(results): print(f"文件 {i+1}: {result.language} - {result.text}")