当前位置：首页 > news >正文

Qwen3-ASR-1.7B与Typora结合的语音笔记工具开发

news 2026/4/14 8:48:06

Qwen3-ASR-1.7B与Typora结合的语音笔记工具开发

1. 引言

你有没有遇到过这样的情况：开会时灵感迸发，却来不及打字记录；或者开车时突然想到一个绝妙的点子，却无法及时记录下来？传统的文字输入方式在这些场景下显得力不从心。现在，有了Qwen3-ASR-1.7B语音识别模型，我们可以开发一个智能语音笔记工具，让你通过说话就能自动生成高质量的笔记内容。

Qwen3-ASR-1.7B是阿里最新开源的语音识别模型，支持52种语言和方言，识别准确率极高，甚至在嘈杂环境下也能稳定工作。而Typora作为一款优雅的Markdown编辑器，正是整理和编辑笔记的绝佳工具。将两者结合，就能打造一个从语音输入到精美笔记的无缝工作流。

本文将手把手教你如何开发这样一个语音笔记工具，让你彻底解放双手，专注于思考和创作。

2. 工具准备与环境搭建

2.1 安装必要的软件包

首先，我们需要安装一些基础的Python包。打开终端，执行以下命令：

pip install torch torchaudio pip install transformers pip install pyaudio pip install soundfile

这些包分别用于深度学习推理、音频处理和文件操作。如果你在安装pyaudio时遇到问题，可能需要先安装portaudio开发库：

# Ubuntu/Debian sudo apt-get install portaudio19-dev # macOS brew install portaudio

2.2 下载Qwen3-ASR模型

Qwen3-ASR-1.7B模型可以从Hugging Face或ModelScope获取。这里我们使用Hugging Face的transformers库来加载模型：

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor model_name = "Qwen/Qwen3-ASR-1.7B" model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name) processor = AutoProcessor.from_pretrained(model_name)

第一次运行时会自动下载模型，文件大小约3.4GB，请确保有足够的磁盘空间和稳定的网络连接。

2.3 配置音频录制功能

我们需要一个简单的音频录制模块来捕获语音输入：

import pyaudio import wave import numpy as np def record_audio(filename, duration=10, sample_rate=16000): """录制指定时长的音频并保存为文件""" chunk = 1024 format = pyaudio.paInt16 channels = 1 p = pyaudio.PyAudio() stream = p.open(format=format, channels=channels, rate=sample_rate, input=True, frames_per_buffer=chunk) print("开始录音...") frames = [] for i in range(0, int(sample_rate / chunk * duration)): data = stream.read(chunk) frames.append(data) print("录音结束") stream.stop_stream() stream.close() p.terminate() # 保存为WAV文件 wf = wave.open(filename, 'wb') wf.setnchannels(channels) wf.setsampwidth(p.get_sample_size(format)) wf.setframerate(sample_rate) wf.writeframes(b''.join(frames)) wf.close() return filename

3. 核心功能实现

3.1 语音识别模块

现在我们来实现核心的语音识别功能：

import torch from transformers import pipeline class SpeechRecognizer: def __init__(self): self.device = "cuda:0" if torch.cuda.is_available() else "cpu" self.pipe = pipeline( "automatic-speech-recognition", model="Qwen/Qwen3-ASR-1.7B", device=self.device ) def transcribe_audio(self, audio_path): """将音频文件转换为文字""" try: result = self.pipe( audio_path, generate_kwargs={"language": "zh", "task": "transcribe"} ) return result["text"] except Exception as e: print(f"识别出错: {e}") return None def real_time_transcribe(self, duration=10): """实时录制并识别语音""" audio_file = "temp_audio.wav" record_audio(audio_file, duration=duration) text = self.transcribe_audio(audio_file) return text

3.2 与Typora的集成

为了让识别结果直接进入Typora，我们可以创建一个简单的文件监视和写入机制：

import time import os from watchdog.observers import Observer from watchdog.events import FileSystemEventHandler class TyporaHandler(FileSystemEventHandler): def __init__(self, recognizer): self.recognizer = recognizer self.current_file = None def on_modified(self, event): if event.src_path.endswith(".md"): self.current_file = event.src_path def append_to_file(self, text): """将识别结果追加到当前打开的Markdown文件""" if self.current_file and text: timestamp = time.strftime("%Y-%m-%d %H:%M", time.localtime()) formatted_text = f"\n\n**{timestamp}**\n{text}" with open(self.current_file, "a", encoding="utf-8") as f: f.write(formatted_text) print(f"已添加到笔记: {text}") # 安装watchdog包：pip install watchdog

4. 完整工作流实现

现在我们把所有模块组合起来，创建一个完整的语音笔记工具：

def main(): # 初始化识别器 recognizer = SpeechRecognizer() # 初始化Typora处理器 typora_handler = TyporaHandler(recognizer) observer = Observer() observer.schedule(typora_handler, path=".", recursive=False) observer.start() print("语音笔记工具已启动！") print("按下回车键开始录音，输入'quit'退出") try: while True: command = input("按回车录音10秒，或输入时长（秒）: ") if command.lower() == 'quit': break try: duration = 10 if command == "" else int(command) text = recognizer.real_time_transcribe(duration) if text: print(f"识别结果: {text}") typora_handler.append_to_file(text) else: print("未识别到有效内容") except ValueError: print("请输入有效的数字") except KeyboardInterrupt: print("\n程序退出") finally: observer.stop() observer.join() if __name__ == "__main__": main()

5. 进阶功能与优化

5.1 支持多种语言识别

Qwen3-ASR支持多语言识别，我们可以根据需要切换语言：

def transcribe_multilingual(self, audio_path, language="auto"): """支持多种语言识别""" if language == "auto": # 自动检测语言 result = self.pipe(audio_path) else: result = self.pipe( audio_path, generate_kwargs={"language": language, "task": "transcribe"} ) return result["text"]

5.2 添加实时反馈功能

为了让用户体验更好，可以添加实时反馈机制：

import pygame def play_feedback_sound(success=True): """播放操作反馈音效""" pygame.mixer.init() if success: sound = pygame.mixer.Sound("success.wav") else: sound = pygame.mixer.Sound("error.wav") sound.play() time.sleep(0.5)

5.3 批量处理音频文件

如果你有已有的录音文件需要整理，可以添加批量处理功能：

def batch_process_audio_files(folder_path, output_file): """批量处理文件夹中的音频文件""" recognizer = SpeechRecognizer() with open(output_file, "w", encoding="utf-8") as out_f: for filename in os.listdir(folder_path): if filename.endswith((".wav", ".mp3", ".m4a")): audio_path = os.path.join(folder_path, filename) text = recognizer.transcribe_audio(audio_path) if text: out_f.write(f"## {filename}\n") out_f.write(f"{text}\n\n") print(f"已处理: {filename}")