当前位置：首页 > news >正文

Node.js调用Qwen3-ASR-0.6B：实时语音转写API开发

news 2026/6/21 0:24:21

Node.js调用Qwen3-ASR-0.6B：实时语音转写API开发

1. 引言

语音识别技术正在改变我们与设备交互的方式。想象一下，你正在开发一个在线会议系统，需要实时将参会者的语音转换为文字，或者你正在构建一个语音助手，需要快速准确地理解用户的指令。这就是Qwen3-ASR-0.6B的用武之地。

这个只有6亿参数的轻量级模型，却能在128并发的情况下实现92毫秒的超低延迟，每秒处理2000秒的音频数据。更重要的是，它支持52种语言和方言，包括22种中文方言，让你的应用能够真正实现全球化覆盖。

本文将带你从零开始，构建一个基于Node.js的实时语音转写服务。无论你是前端开发者想要添加语音功能，还是后端工程师需要构建语音处理管道，这篇教程都会给你实用的指导。

2. 环境准备与快速部署

2.1 系统要求与Node.js安装

首先确保你的系统满足以下要求：

Ubuntu 20.04+ 或 CentOS 8+
Node.js 18.0.0 或更高版本
Python 3.8+（用于模型推理）
NVIDIA GPU（推荐）或 CPU

如果你还没有安装Node.js，可以通过以下命令快速安装：

# 使用Node版本管理器安装 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash source ~/.bashrc nvm install 18 nvm use 18 # 或者直接下载安装包 # 访问 https://nodejs.org/ 下载LTS版本

验证安装是否成功：

node --version npm --version

2.2 项目初始化与依赖安装

创建一个新的项目目录并初始化：

mkdir qwen3-asr-service cd qwen3-asr-service npm init -y

安装必要的依赖包：

# 核心依赖 npm install express ws multer axios npm install --save-dev nodemon @types/ws # Python相关依赖（通过子进程调用） npm install child-process-promise

2.3 Python环境配置

由于Qwen3-ASR是基于Python的模型，我们需要设置Python环境：

# 创建Python虚拟环境 python -m venv venv source venv/bin/activate # 安装模型推理依赖 pip install torch torchaudio pip install qwen-asr pip install soundfile # 用于音频处理

3. 核心概念与架构设计

3.1 Qwen3-ASR-0.6B模型特点

Qwen3-ASR-0.6B虽然参数量不大，但能力不容小觑：

多语言支持：原生支持30种国际语言和22种中文方言
高效推理：128并发下RTF（实时因子）仅0.064
流式处理：支持实时音频流识别
强鲁棒性：在噪声环境下仍能保持稳定识别

3.2 系统架构设计

我们的语音转写服务采用微服务架构：

客户端 → Node.js API网关 → WebSocket服务 → Python推理 worker → 结果返回

这种设计的好处是：

Node.js处理高并发的网络请求
Python专门负责模型推理
WebSocket实现实时通信
易于水平扩展

4. 基础语音转写API开发

4.1 简单的文件上传转写

首先实现一个基础的HTTP API，支持音频文件上传和转写：

const express = require('express'); const multer = require('multer'); const { spawn } = require('child_process'); const path = require('path'); const app = express(); const upload = multer({ dest: 'uploads/' }); app.post('/transcribe', upload.single('audio'), async (req, res) => { try { const audioPath = req.file.path; // 调用Python脚本进行推理 const pythonProcess = spawn('python', [ 'transcribe.py', audioPath ]); let result = ''; pythonProcess.stdout.on('data', (data) => { result += data.toString(); }); pythonProcess.stderr.on('data', (data) => { console.error(`stderr: ${data}`); }); pythonProcess.on('close', (code) => { if (code === 0) { res.json({ success: true, text: result.trim(), language: 'auto-detected' }); } else { res.status(500).json({ success: false, error: 'Transcription failed' }); } }); } catch (error) { res.status(500).json({ success: false, error: error.message }); } }); // Python转录脚本 (transcribe.py) const pythonScript = ` import sys from qwen_asr import Qwen3ASRModel import torch audio_path = sys.argv[1] # 初始化模型 model = Qwen3ASRModel.from_pretrained( "Qwen/Qwen3-ASR-0.6B", torch_dtype=torch.float16, device_map="auto" ) # 执行转录 results = model.transcribe(audio_path) print(results[0].text) `; // 将Python脚本写入文件 const fs = require('fs'); fs.writeFileSync('transcribe.py', pythonScript); app.listen(3000, () => { console.log('Server running on port 3000'); });

4.2 实时音频流处理

对于实时应用，我们需要使用WebSocket来处理音频流：

const WebSocket = require('ws'); const wss = new WebSocket.Server({ port: 8080 }); wss.on('connection', (ws) => { console.log('Client connected'); let audioBuffer = Buffer.alloc(0); ws.on('message', (message) => { // 累积音频数据 audioBuffer = Buffer.concat([audioBuffer, message]); // 每收到2秒音频就处理一次 if (audioBuffer.length > 32000 * 2) { // 假设16kHz, 16-bit音频 processAudioChunk(audioBuffer.slice(0, 32000 * 2)); audioBuffer = audioBuffer.slice(32000 * 2); } }); ws.on('close', () => { console.log('Client disconnected'); // 处理剩余的音频数据 if (audioBuffer.length > 0) { processAudioChunk(audioBuffer); } }); function processAudioChunk(chunk) { // 这里简化处理，实际应该调用Python进程 const text = `识别结果: ${chunk.length} bytes 音频`; ws.send(JSON.stringify({ type: 'transcription', text: text, isFinal: false })); } });

5. 高级功能与性能优化

5.1 并发控制与连接池

为了提高吞吐量，我们需要实现连接池来管理Python推理进程：

class PythonWorkerPool { constructor(size = 4) { this.size = size; this.workers = []; this.taskQueue = []; for (let i = 0; i < size; i++) { this.workers.push(this.createWorker()); } } createWorker() { const worker = spawn('python', ['worker.py']); let busy = false; worker.on('message', (message) => { // 处理任务完成 busy = false; this.processNextTask(); }); return { process: worker, busy }; } addTask(task) { return new Promise((resolve) => { this.taskQueue.push({ task, resolve }); this.processNextTask(); }); } processNextTask() { const availableWorker = this.workers.find(w => !w.busy); if (availableWorker && this.taskQueue.length > 0) { const { task, resolve } = this.taskQueue.shift(); availableWorker.busy = true; availableWorker.process.stdin.write(JSON.stringify(task) + '\n'); availableWorker.process.stdout.once('data', (data) => { resolve(data.toString().trim()); }); } } } // 使用连接池 const pool = new PythonWorkerPool(4); app.post('/transcribe/batch', async (req, res) => { const audioFiles = req.files; // 假设多个文件 const results = await Promise.all( audioFiles.map(file => pool.addTask({ type: 'transcribe', path: file.path })) ); res.json(results); });

5.2 GPU资源管理

通过环境变量配置GPU资源：

// 根据可用的GPU数量动态分配资源 function getGPUConfig() { const gpuCount = parseInt(process.env.GPU_COUNT) || 1; const configs = []; for (let i = 0; i < gpuCount; i++) { configs.push({ device: `cuda:${i}`, memoryUtilization: 0.8 / gpuCount }); } return configs; } // 在Python worker中使用配置 const pythonConfigScript = ` import os import torch gpu_id = int(os.environ.get('GPU_ID', '0')) torch.cuda.set_device(gpu_id) # 其余初始化代码... `;

6. 生产环境部署与监控

6.1 使用PM2进行进程守护

创建PM2配置文件：

// ecosystem.config.js module.exports = { apps: [{ name: 'qwen3-asr-service', script: 'app.js', instances: 'max', exec_mode: 'cluster', env: { NODE_ENV: 'production', PORT: 3000, GPU_COUNT: 1 }, error_file: './logs/err.log', out_file: './logs/out.log', log_file: './logs/combined.log', time: true }] };

启动服务：

pm2 start ecosystem.config.js pm2 save pm2 startup

6.2 日志管理与监控

设置完整的日志系统：

const winston = require('winston'); const logger = winston.createLogger({ level: 'info', format: winston.format.combine( winston.format.timestamp(), winston.format.json() ), transports: [ new winston.transports.File({ filename: 'logs/error.log', level: 'error' }), new winston.transports.File({ filename: 'logs/combined.log' }) ] }); // 添加性能监控 const monitorTranscription = (audioLength, processingTime, success) => { logger.info('performance', { audioLength, processingTime, success, timestamp: new Date().toISOString() }); };

7. 完整示例项目

下面是一个完整的示例，展示如何构建生产就绪的语音转写服务：

// app.js const express = require('express'); const WebSocket = require('ws'); const multer = require('multer'); const { spawn } = require('child_process'); const path = require('path'); const fs = require('fs'); const app = express(); const upload = multer({ dest: 'uploads/' }); // HTTP API端点 app.post('/api/transcribe', upload.single('audio'), async (req, res) => { const startTime = Date.now(); try { const result = await transcribeAudio(req.file.path); const processingTime = Date.now() - startTime; monitorTranscription(req.file.size, processingTime, true); res.json({ success: true, text: result, processingTime: `${processingTime}ms` }); // 清理临时文件 fs.unlinkSync(req.file.path); } catch (error) { const processingTime = Date.now() - startTime; monitorTranscription(req.file.size, processingTime, false); res.status(500).json({ success: false, error: error.message }); } }); // WebSocket实时转录 const wss = new WebSocket.Server({ port: 8080 }); wss.on('connection', handleWebSocketConnection); async function transcribeAudio(filePath) { return new Promise((resolve, reject) => { const python = spawn('python', ['transcribe.py', filePath]); let result = ''; let error = ''; python.stdout.on('data', (data) => { result += data.toString(); }); python.stderr.on('data', (data) => { error += data.toString(); }); python.on('close', (code) => { if (code === 0) { resolve(result.trim()); } else { reject(new Error(`Python process failed: ${error}`)); } }); }); } function handleWebSocketConnection(ws) { console.log('New WebSocket connection'); ws.on('message', (data) => { // 处理实时音频流 handleAudioStream(ws, data); }); ws.on('close', () => { console.log('WebSocket connection closed'); }); } app.listen(3000, () => { console.log('HTTP server running on port 3000'); console.log('WebSocket server running on port 8080'); });