当前位置：首页 > news >正文

Qwen3-ASR-1.7B详细步骤：7860 WebUI + 7861 API双接口调用

news 2026/4/23 5:40:24

Qwen3-ASR-1.7B详细步骤：7860 WebUI + 7861 API双接口调用

想快速搭建一个能听懂中文、英文、日语、韩语甚至粤语的语音识别服务吗？今天要介绍的Qwen3-ASR-1.7B，让你在10分钟内就能拥有一个功能强大的离线语音转写平台。

这个模型来自阿里通义千问，有17亿参数，最大的特点是“即开即用”——不需要联网下载任何东西，所有文件都预置好了。它提供了两个访问方式：一个是直观的网页界面（7860端口），另一个是给程序员用的API接口（7861端口）。无论你是想手动上传音频测试，还是想把语音识别功能集成到自己的应用里，都能找到合适的入口。

我测试了一下，一段10秒的中文音频，从上传到看到文字结果，大概就2-3秒的时间，速度相当快。而且显存占用也不算高，一张16GB显存的显卡就能跑起来。

1. 快速部署：从零到可用的完整流程

1.1 环境准备与镜像选择

首先，你需要一个支持CUDA 12.4的GPU环境。如果你在云平台上操作，直接搜索镜像名ins-asr-1.7b-v1就能找到。

这个镜像已经打包好了所有依赖：

Python 3.11环境
PyTorch 2.5.0深度学习框架
CUDA 12.4显卡驱动支持
模型权重文件（5.5GB，分成了2个文件）
Web界面和API服务代码

选择对应的底座insbase-cuda124-pt250-dual-v7，点击部署按钮。系统会自动创建实例，这个过程大概需要1-2分钟。

1.2 启动服务与等待初始化

实例创建成功后，状态会显示为“已启动”。这时候你需要执行启动命令：

bash /root/start_asr_1.7b.sh

这个脚本会做几件事：

加载模型权重到显存（首次启动需要15-20秒）
启动FastAPI后端服务（监听7861端口）
启动Gradio前端网页服务（监听7860端口）

你可以在日志里看到进度，当出现“服务启动成功”的提示时，就说明一切就绪了。

小提示：第一次启动会慢一些，因为要把5.5GB的模型文件加载到显存。后续重启就快多了，几秒钟就能完成。

2. WebUI界面使用：零代码体验语音转写

2.1 访问测试页面

在实例管理页面，找到“HTTP”入口按钮，点击它就能直接打开语音识别测试页面。或者你也可以在浏览器地址栏输入：http://你的实例IP地址:7860

打开的页面很简洁，主要分为三个区域：

左侧：音频上传和播放区域
中间：控制选项区域
右侧：结果显示区域

2.2 完整测试流程

我来带你走一遍完整的测试流程，确保每个步骤都清晰：

第一步：选择识别语言在“语言识别”下拉框里，你会看到几个选项：

auto（自动检测）：让模型自己判断是什么语言
zh（中文）：明确指定是中文音频
en（英文）：明确指定是英文音频
ja（日语）：明确指定是日语音频
ko（韩语）：明确指定是韩语音频
yue（粤语）：明确指定是粤语音频

对于测试，我建议先选“zh”或者“auto”。

第二步：上传测试音频点击“上传音频”区域，选择你的测试文件。这里有个重要提醒：目前只支持WAV格式，而且最好是16kHz采样率的单声道音频。

如果你手头没有合适的WAV文件，可以用这段Python代码快速生成一个测试音频：

import numpy as np import soundfile as sf # 生成一段测试语音（中文“你好，世界”） sample_rate = 16000 duration = 3 # 3秒 t = np.linspace(0, duration, int(sample_rate * duration), False) # 生成一个简单的音调 frequency = 440 # 440Hz，A调 audio = 0.5 * np.sin(2 * np.pi * frequency * t) # 保存为WAV文件 sf.write('test_audio.wav', audio, sample_rate) print("测试音频已生成：test_audio.wav")

上传成功后，左侧会显示音频波形图，还有个播放按钮可以试听。

第三步：开始识别点击那个大大的“ 开始识别”按钮。按钮会变成灰色，显示“识别中...”，这时候模型正在处理你的音频。

第四步：查看结果大概1-3秒后，右侧的“识别结果”文本框就会显示转写结果。格式是这样的：

识别结果 ━━━━━━━━━━━━━━━━━━━ 识别语言：Chinese 识别内容：[这里是转写出来的文字] ━━━━━━━━━━━━━━━━━━━

如果一切正常，你应该能看到准确的中文转写结果。

2.3 多语言测试技巧

想测试英文识别？上传一段英文音频，语言选择“en”，然后点击识别。模型对英文的支持也不错，我测试了“Hello, how are you today?”，识别准确率很高。

实用建议：

测试音频不要太长，5-30秒最合适
说话要清晰，背景噪音尽量小
如果是混合语言（比如中英混杂），用“auto”模式效果更好

3. API接口调用：集成到你的应用中

3.1 API基础介绍

WebUI适合手动测试，但如果你想把语音识别功能集成到自己的程序里，就需要用API接口了。服务在7861端口提供了一个RESTful API，支持标准的HTTP请求。

API的主要端点：

POST /asr：提交音频进行识别
GET /health：检查服务状态
GET /docs：查看完整的API文档（Swagger UI）

3.2 完整的API调用示例

下面我用Python代码展示如何调用API，你可以直接复制使用：

import requests import json import base64 # API服务地址（注意是7861端口） api_url = "http://localhost:7861/asr" def transcribe_audio(file_path, language="auto"): """ 调用语音识别API转写音频文件 参数： file_path: 音频文件路径（WAV格式） language: 识别语言，可选值：auto, zh, en, ja, ko, yue 返回： 识别结果字典 """ # 读取音频文件并编码为base64 with open(file_path, "rb") as audio_file: audio_bytes = audio_file.read() audio_base64 = base64.b64encode(audio_bytes).decode('utf-8') # 准备请求数据 payload = { "audio": audio_base64, "language": language, "format": "wav" } headers = { "Content-Type": "application/json" } try: # 发送POST请求 response = requests.post(api_url, json=payload, headers=headers, timeout=30) if response.status_code == 200: result = response.json() return result else: print(f"请求失败，状态码：{response.status_code}") print(f"错误信息：{response.text}") return None except requests.exceptions.RequestException as e: print(f"网络请求错误：{e}") return None # 使用示例 if __name__ == "__main__": # 转写中文音频 result = transcribe_audio("test_chinese.wav", language="zh") if result and result.get("success"): print("识别成功！") print(f"识别语言：{result.get('language')}") print(f"转写内容：{result.get('text')}") print(f"处理耗时：{result.get('processing_time')}秒") else: print("识别失败") print(f"错误信息：{result}")

3.3 流式处理与批量处理

虽然当前版本主要针对单个文件处理，但你可以通过一些技巧实现批量处理：

import os import concurrent.futures from pathlib import Path def batch_transcribe(audio_dir, output_dir, language="auto", max_workers=4): """ 批量转写音频目录中的所有WAV文件 参数： audio_dir: 音频文件目录 output_dir: 输出文本文件目录 language: 识别语言 max_workers: 最大并发数 """ audio_dir = Path(audio_dir) output_dir = Path(output_dir) output_dir.mkdir(exist_ok=True) # 收集所有WAV文件 audio_files = list(audio_dir.glob("*.wav")) print(f"找到 {len(audio_files)} 个音频文件") def process_file(audio_file): """处理单个文件""" try: result = transcribe_audio(str(audio_file), language) if result and result.get("success"): # 保存结果到文本文件 output_file = output_dir / f"{audio_file.stem}.txt" with open(output_file, "w", encoding="utf-8") as f: f.write(result.get("text", "")) return audio_file.name, True, None else: return audio_file.name, False, "识别失败" except Exception as e: return audio_file.name, False, str(e) # 使用线程池并发处理 with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor: futures = {executor.submit(process_file, file): file for file in audio_files} success_count = 0 for future in concurrent.futures.as_completed(futures): file_name, success, error = future.result() if success: print(f"✓ {file_name} 转写成功") success_count += 1 else: print(f"✗ {file_name} 转写失败: {error}") print(f"\n批量处理完成！成功：{success_count}/{len(audio_files)}") # 使用示例 if __name__ == "__main__": batch_transcribe( audio_dir="./audio_files", output_dir="./transcripts", language="auto", max_workers=2 # 根据你的GPU显存调整并发数 )

重要提醒：并发处理时会共享GPU显存，如果同时处理太多文件，可能会导致显存不足。建议根据你的显卡情况调整max_workers参数。

4. 实际应用场景与解决方案

4.1 会议录音转文字稿

很多公司都有会议录音转文字的需求，传统方法要么人工听写（太慢），要么用在线服务（有数据安全风险）。用Qwen3-ASR-1.7B搭建本地服务，完美解决了这两个问题。

我设计了一个简单的会议转写工作流：

import os import datetime from pathlib import Path class MeetingTranscriber: def __init__(self, api_url="http://localhost:7861/asr"): self.api_url = api_url self.output_dir = Path("./meeting_transcripts") self.output_dir.mkdir(exist_ok=True) def transcribe_meeting(self, audio_file, meeting_info=None): """ 转写单场会议录音 参数： audio_file: 会议录音文件 meeting_info: 会议信息字典，如： { "title": "项目周会", "date": "2024-01-15", "participants": ["张三", "李四", "王五"] } """ # 转写音频 result = transcribe_audio(audio_file, language="zh") if not result or not result.get("success"): print("会议转写失败") return None # 生成转写文档 transcript = self._format_transcript(result, meeting_info) # 保存文件 if meeting_info: filename = f"{meeting_info.get('date', 'unknown')}_{meeting_info.get('title', 'meeting')}.md" else: filename = f"meeting_{datetime.datetime.now().strftime('%Y%m%d_%H%M%S')}.md" filepath = self.output_dir / filename with open(filepath, "w", encoding="utf-8") as f: f.write(transcript) print(f"会议转写已保存：{filepath}") return filepath def _format_transcript(self, result, meeting_info): """格式化转写结果""" transcript = [] # 添加会议信息头 if meeting_info: transcript.append(f"# {meeting_info.get('title', '会议记录')}") transcript.append(f"**日期**：{meeting_info.get('date', '未知')}") if meeting_info.get("participants"): participants = "、".join(meeting_info["participants"]) transcript.append(f"**参会人员**：{participants}") transcript.append("---\n") # 添加转写内容 transcript.append("## 会议内容转写") transcript.append("") transcript.append(result.get("text", "")) transcript.append("") # 添加元数据 transcript.append("---") transcript.append("**转写信息**") transcript.append(f"- 识别语言：{result.get('language', '未知')}") transcript.append(f"- 处理时间：{result.get('processing_time', '未知')}秒") transcript.append(f"- 转写时间：{datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}") return "\n".join(transcript) # 使用示例 if __name__ == "__main__": transcriber = MeetingTranscriber() # 转写一场会议 meeting_info = { "title": "2024年第一季度产品规划会", "date": "2024-01-15", "participants": ["张三", "李四", "王五", "赵六"] } transcript_file = transcriber.transcribe_meeting( audio_file="meeting_20240115.wav", meeting_info=meeting_info )

这个方案的好处是：

完全离线：录音数据不出公司网络
格式统一：生成标准Markdown格式，方便后续处理
信息完整：包含会议元数据，便于归档检索

4.2 多语言内容审核

对于有国际业务的公司，经常需要处理多种语言的用户音频。比如客服录音、用户反馈、内容审核等场景。

class MultilingualContentChecker: def __init__(self, api_url="http://localhost:7861/asr"): self.api_url = api_url # 定义需要监控的关键词（支持多语言） self.sensitive_keywords = { "zh": ["诈骗", "赌博", "毒品", "暴力", "色情"], "en": ["scam", "gambling", "drugs", "violence", "porn"], "ja": ["詐欺", "賭博", "麻薬", "暴力", "ポルノ"], "ko": ["사기", "도박", "마약", "폭력", "포르노"] } def check_audio_content(self, audio_file): """ 检查音频内容是否包含敏感信息 返回： { "safe": True/False, "language": "检测到的语言", "sensitive_words": ["检测到的敏感词列表"], "transcript": "转写文本（前100字符）" } """ # 使用auto模式自动检测语言 result = transcribe_audio(audio_file, language="auto") if not result or not result.get("success"): return {"safe": True, "error": "转写失败"} detected_language = result.get("language", "").lower() text = result.get("text", "").lower() # 根据检测到的语言选择关键词库 lang_key = self._map_language(detected_language) keywords = self.sensitive_keywords.get(lang_key, []) # 检查是否包含敏感词 found_keywords = [] for keyword in keywords: if keyword.lower() in text: found_keywords.append(keyword) # 返回检查结果 return { "safe": len(found_keywords) == 0, "language": detected_language, "sensitive_words": found_keywords, "transcript": text[:100] + "..." if len(text) > 100 else text, "processing_time": result.get("processing_time") } def _map_language(self, detected_lang): """将检测到的语言映射到关键词库键名""" lang_map = { "chinese": "zh", "english": "en", "japanese": "ja", "korean": "ko" } return lang_map.get(detected_lang, "en") # 使用示例 if __name__ == "__main__": checker = MultilingualContentChecker() # 检查中文音频 result1 = checker.check_audio_content("user_feedback_chinese.wav") print(f"中文音频检查结果：{result1}") # 检查英文音频 result2 = checker.check_audio_content("user_feedback_english.wav") print(f"英文音频检查结果：{result2}") # 批量检查 audio_files = ["audio1.wav", "audio2.wav", "audio3.wav"] for audio_file in audio_files: if os.path.exists(audio_file): result = checker.check_audio_content(audio_file) status = "✓ 安全" if result["safe"] else "✗ 存在敏感内容" print(f"{audio_file}: {status}") if not result["safe"]: print(f" 检测到敏感词：{result['sensitive_words']}")

这个方案特别适合：

社交媒体平台的音频内容审核
在线教育平台的学生录音检查
跨境电商的客服质量监控

5. 性能优化与问题排查

5.1 显存管理与优化建议

Qwen3-ASR-1.7B对显存的需求大约是10-14GB，具体取决于音频长度和批量大小。如果你的显卡显存紧张，可以试试这些优化方法：

# 显存优化配置示例 import torch import gc def optimize_memory_usage(): """优化显存使用""" # 清理缓存 torch.cuda.empty_cache() gc.collect() # 设置较小的批处理大小 batch_size = 1 # 单文件处理 # 使用混合精度（如果支持） if torch.cuda.is_available(): torch.backends.cudnn.benchmark = True # 注意：当前镜像可能已配置最优设置 return batch_size # 长时间运行时的显存监控 import psutil import GPUtil def monitor_system_resources(interval=60): """监控系统资源使用情况""" import time import threading def monitor_loop(): while True: # CPU使用率 cpu_percent = psutil.cpu_percent(interval=1) # 内存使用 memory = psutil.virtual_memory() # GPU使用情况（如果有） gpus = GPUtil.getGPUs() gpu_info = [] for gpu in gpus: gpu_info.append({ "name": gpu.name, "load": gpu.load * 100, "memory_used": gpu.memoryUsed, "memory_total": gpu.memoryTotal }) print(f"\n=== 系统资源监控 ===") print(f"CPU使用率: {cpu_percent}%") print(f"内存使用: {memory.percent}% ({memory.used/1024/1024:.1f}MB / {memory.total/1024/1024:.1f}MB)") for info in gpu_info: print(f"GPU {info['name']}:") print(f" 负载: {info['load']:.1f}%") print(f" 显存: {info['memory_used']}MB / {info['memory_total']}MB") time.sleep(interval) # 启动监控线程 thread = threading.Thread(target=monitor_loop, daemon=True) thread.start() return thread # 在服务启动后开始监控 if __name__ == "__main__": monitor_thread = monitor_system_resources(interval=300) # 每5分钟监控一次

5.2 常见问题与解决方案

在实际使用中，你可能会遇到这些问题：

问题1：音频格式不支持

错误：只支持WAV格式，但上传了MP3文件

解决方案：用ffmpeg或pydub转换格式

from pydub import AudioSegment def convert_to_wav(input_file, output_file=None): """将音频文件转换为WAV格式""" if output_file is None: output_file = input_file.rsplit('.', 1)[0] + '.wav' # 加载音频文件 audio = AudioSegment.from_file(input_file) # 转换为单声道、16kHz采样率 audio = audio.set_channels(1) audio = audio.set_frame_rate(16000) # 保存为WAV格式 audio.export(output_file, format="wav") print(f"已转换：{input_file} -> {output_file}") return output_file

问题2：长音频处理超时

错误：音频太长，处理时间超过30秒

解决方案：将长音频分割成小段

def split_long_audio(audio_file, segment_duration=180): """ 将长音频分割成指定时长的片段 参数： audio_file: 输入音频文件 segment_duration: 每个片段的时长（秒），默认3分钟 """ from pydub import AudioSegment import os audio = AudioSegment.from_wav(audio_file) duration_ms = len(audio) segment_ms = segment_duration * 1000 output_files = [] base_name = os.path.splitext(audio_file)[0] for i in range(0, duration_ms, segment_ms): # 计算片段开始和结束时间 start = i end = min(i + segment_ms, duration_ms) # 提取片段 segment = audio[start:end] # 保存片段 segment_file = f"{base_name}_part{i//segment_ms + 1}.wav" segment.export(segment_file, format="wav") output_files.append(segment_file) print(f"生成片段：{segment_file} ({len(segment)/1000:.1f}秒)") return output_files

问题3：识别准确率不高

现象：在嘈杂环境下或专业术语识别不准

解决方案：

预处理降噪：使用简单的滤波处理
后处理纠错：基于规则的文本校正
领域适应：收集领域数据，考虑微调（需要额外步骤）

def simple_audio_enhancement(audio_file, output_file=None): """简单的音频增强处理""" import numpy as np import soundfile as sf from scipy import signal # 读取音频 data, samplerate = sf.read(audio_file) # 简单的带通滤波（保留人声频率范围） nyquist = 0.5 * samplerate low = 80 / nyquist # 80Hz低切 high = 8000 / nyquist # 8000Hz高切 # 设计滤波器 b, a = signal.butter(4, [low, high], btype='band') # 应用滤波器 filtered_data = signal.filtfilt(b, a, data) # 归一化 max_val = np.max(np.abs(filtered_data)) if max_val > 0: filtered_data = filtered_data / max_val * 0.9 # 保存处理后的音频 if output_file is None: output_file = audio_file.replace('.wav', '_enhanced.wav') sf.write(output_file, filtered_data, samplerate) print(f"音频增强完成：{output_file}") return output_file