当前位置：首页 > news >正文

Qwen3-ASR-1.7B在Windows下的WSL2部署教程

news 2026/7/23 10:38:18

Qwen3-ASR-1.7B在Windows下的WSL2部署教程

1. 开篇：语音识别新选择

如果你正在Windows上寻找一个好用的语音识别工具，Qwen3-ASR-1.7B可能是个不错的选择。这个模型支持30种语言和22种中文方言的识别，效果相当不错。最重要的是，它可以在Windows系统上通过WSL2来运行，不需要复杂的Linux环境配置。

我之前在Windows上尝试过各种语音识别方案，要么安装复杂，要么效果一般。Qwen3-ASR-1.7B算是找到了一个平衡点——效果不错，部署也不算太难。下面我就带你一步步在Windows 11上通过WSL2来部署这个模型。

2. 环境准备：安装WSL2

首先确保你的Windows 11系统已经开启了WSL2功能。打开PowerShell（管理员身份），运行：

wsl --install

这个命令会自动安装WSL2和默认的Ubuntu发行版。安装完成后需要重启电脑。

重启后，打开Ubuntu终端，设置用户名和密码。然后更新系统：

sudo apt update && sudo apt upgrade -y

接下来安装必要的依赖包：

sudo apt install -y python3 python3-pip python3-venv git wget

3. 配置Python环境

建议使用虚拟环境来管理Python依赖，避免污染系统环境：

# 创建项目目录 mkdir qwen-asr && cd qwen-asr # 创建虚拟环境 python3 -m venv .venv # 激活虚拟环境 source .venv/bin/activate

激活虚拟环境后，命令行前面会出现(.venv)的提示，表示已经在虚拟环境中了。

4. 安装模型依赖

现在安装Qwen3-ASR所需的Python包：

# 安装基础依赖 pip install torch torchaudio --index-url https://download.pytorch.org/whl/cpu # 安装ModelScope和相关依赖 pip install modelscope qwen-asr

如果你有NVIDIA显卡并且已经安装了CUDA，可以使用GPU版本：

pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

5. 下载语音识别模型

使用ModelScope来下载模型文件：

# 下载1.7B版本模型 modelscope download --model Qwen/Qwen3-ASR-1.7B

下载过程可能需要一些时间，因为模型文件比较大（约3.4GB）。你可以喝杯咖啡等待一下。

如果想要更小的版本，也可以下载0.6B模型：

modelscope download --model Qwen/Qwen3-ASR-0.6B

6. 测试语音识别功能

创建一个测试脚本test_asr.py：

import torch from qwen_asr import Qwen3ASRModel # 加载模型 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", dtype=torch.float32, device_map="auto" ) # 测试语音识别 results = model.transcribe( audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", language=None # 自动检测语言 ) print(f"检测到的语言: {results[0].language}") print(f"识别结果: {results[0].text}")

运行测试脚本：

python test_asr.py

如果一切正常，你会看到模型成功识别了示例音频中的英文内容。

7. 处理本地音频文件

实际使用时，我们更可能需要处理本地的音频文件。这里有个简单的例子：

from qwen_asr import Qwen3ASRModel import torch # 加载模型 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-1.7B", dtype=torch.float32, device_map="auto" ) # 识别本地音频文件 results = model.transcribe( audio="/path/to/your/audio.wav", # 替换为你的音频文件路径 language="Chinese" # 可以指定语言，如不指定则自动检测 ) print(f"识别结果: {results[0].text}")

8. 常见问题解决

在部署过程中可能会遇到一些问题，这里列举几个常见的：

问题1：内存不足如果遇到内存错误，可以尝试使用0.6B的模型版本，或者增加虚拟内存。

问题2：下载速度慢可以设置镜像源来加速下载：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

问题3：音频格式不支持Qwen3-ASR主要支持WAV格式，如果遇到其他格式，可以用ffmpeg转换：

sudo apt install ffmpeg ffmpeg -i input.mp3 output.wav

9. 实际使用建议

根据我的使用经验，这里有几个实用建议：

音频质量很重要：清晰的音频能显著提升识别准确率，建议使用16kHz采样率的WAV文件
选择合适的模型：如果只是中文识别，0.6B版本可能就够用了，速度更快
批量处理：如果需要处理大量音频，可以考虑写个批处理脚本：

import os from qwen_asr import Qwen3ASRModel import torch model = Qwen3ASRModel.from_pretrained("Qwen/Qwen3-ASR-1.7B") audio_dir = "audio_files" for filename in os.listdir(audio_dir): if filename.endswith(".wav"): audio_path = os.path.join(audio_dir, filename) results = model.transcribe(audio=audio_path) print(f"{filename}: {results[0].text}")