当前位置：首页 > news >正文

快速上手Qwen3-ASR-1.7B：Docker部署与简单调用

news 2026/6/26 0:43:43

快速上手Qwen3-ASR-1.7B：Docker部署与简单调用

1. 语音识别模型简介

Qwen3-ASR-1.7B是阿里云通义千问团队开发的高精度开源语音识别模型，作为ASR系列的最新版本，它在识别准确率和多语言支持方面都有显著提升。这个模型特别适合需要处理多种语言或方言的应用场景，比如国际会议记录、多语言客服系统等。

与常见的语音识别服务相比，Qwen3-ASR-1.7B有以下几个突出特点：

多语言支持：能够识别52种语言和方言，包括30种主要语言和22种中文方言
高精度识别：17亿参数的模型规模，在复杂声学环境下仍能保持高质量识别
自动语言检测：无需预先指定语言类型，模型能自动识别音频中的语言
开箱即用：通过Docker镜像提供完整运行环境，无需复杂配置

2. 环境准备与Docker部署

2.1 硬件要求

在开始部署前，请确保你的设备满足以下最低硬件要求：

硬件组件	最低要求	推荐配置
GPU显存	≥6GB	≥12GB
处理器	4核CPU	8核CPU
内存	8GB	16GB
存储空间	10GB	20GB

2.2 安装Docker和NVIDIA驱动

如果你的系统尚未安装Docker和NVIDIA驱动，可以按照以下步骤进行安装：

安装Docker引擎：

curl -fsSL https://get.docker.com | sh sudo systemctl start docker sudo systemctl enable docker

安装NVIDIA驱动和容器工具包：

# 安装NVIDIA驱动 sudo apt-get install nvidia-driver-535 # 安装NVIDIA容器工具包 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker

验证安装是否成功：

docker run --rm --gpus all nvidia/cuda:12.1.1-base-ubuntu22.04 nvidia-smi

如果能看到GPU信息输出，说明环境配置正确。

2.3 拉取Qwen3-ASR-1.7B镜像

使用以下命令拉取预构建的Docker镜像：

docker pull registry.cn-hangzhou.aliyuncs.com/qwen/qwen3-asr:1.7b

镜像大小约为8GB，下载时间取决于你的网络速度。完成后，可以使用以下命令查看已下载的镜像：

docker images | grep qwen3-asr

3. 启动语音识别服务

3.1 运行容器

使用以下命令启动Qwen3-ASR-1.7B服务：

docker run -d --gpus all \ -p 7860:7860 \ --name qwen3-asr \ registry.cn-hangzhou.aliyuncs.com/qwen/qwen3-asr:1.7b

参数说明：

-d：后台运行容器
--gpus all：允许容器使用所有GPU资源
-p 7860:7860：将容器内部的7860端口映射到主机的7860端口
--name qwen3-asr：为容器指定一个名称

3.2 验证服务状态

服务启动后，可以通过以下方式检查运行状态：

查看容器日志：

docker logs qwen3-asr

检查服务健康状态：

curl http://localhost:7860/health

如果返回{"status":"healthy"}，说明服务已正常启动。

4. 使用Web界面进行语音识别

Qwen3-ASR-1.7B镜像内置了直观的Web界面，方便用户快速测试语音识别功能。

4.1 访问Web界面

在浏览器中打开以下地址：

http://localhost:7860

或者，如果你是在远程服务器上部署，使用服务器IP地址替换localhost：

http://<你的服务器IP>:7860

4.2 上传音频文件

Web界面提供了简单的操作流程：

点击"上传"按钮，选择音频文件（支持wav、mp3、flac等格式）
选择语言模式（默认"auto"自动检测，也可手动指定特定语言）
点击"开始识别"按钮
查看识别结果，包括识别文本和检测到的语言类型

4.3 示例音频测试

如果你没有现成的测试音频，可以使用以下命令下载示例音频：

wget https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav wget https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav

这些示例音频分别包含英文和中文语音内容，可以用来验证模型的多语言识别能力。

5. 通过API调用语音识别服务

除了Web界面，Qwen3-ASR-1.7B还提供了RESTful API接口，方便集成到其他应用中。

5.1 API基本结构

API端点位于http://localhost:7860/v1/chat/completions，使用POST方法提交JSON格式的请求。

基本请求格式：

{ "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "音频文件URL" } } ] } ] }

5.2 使用curl测试API

以下是通过命令行工具curl测试API的示例：

curl -X POST "http://localhost:7860/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav" } } ] } ] }'

5.3 Python客户端示例

以下是使用Python调用API的完整示例代码：

import requests import json url = "http://localhost:7860/v1/chat/completions" headers = {"Content-Type": "application/json"} data = { "messages": [ { "role": "user", "content": [ { "type": "audio_url", "audio_url": { "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav" } } ] } ] } response = requests.post(url, headers=headers, data=json.dumps(data)) print(response.json())