当前位置：首页 > news >正文

Qwen3-ASR-1.7B实操教程：批量处理目录下所有MP3文件并导出TXT/SRT/JSON格式

news 2026/3/26 18:07:15

Qwen3-ASR-1.7B实操教程：批量处理目录下所有MP3文件并导出TXT/SRT/JSON格式

你是不是经常需要处理一堆会议录音、访谈音频或者视频素材，想把它们快速转成文字？手动听写不仅耗时耗力，还容易出错。今天，我要分享一个超级实用的本地工具——基于Qwen3-ASR-1.7B模型的语音识别工具，它能帮你一键批量处理整个文件夹的音频文件，并导出成你需要的TXT、SRT字幕或者JSON格式。

这个工具最大的亮点是“本地运行”和“批量处理”。你的音频数据完全不用上传到任何云端服务器，隐私绝对安全。而且，它专门针对GPU做了优化，识别速度快，准确率高，特别是对付那些中英文混杂、句子又长又绕口的会议录音，效果比之前的0.6B版本强不少。

接下来，我就手把手带你从零开始，部署这个工具，并教你如何用它高效地处理你积压的音频文件。

1. 准备工作与环境部署

在开始批量处理之前，我们需要先把工具跑起来。整个过程很简单，跟着步骤走就行。

1.1 环境要求与快速安装

首先，确保你的电脑满足以下基本条件：

操作系统：Windows 10/11， macOS 或 Linux 都可以。
Python环境：需要安装Python 3.8到3.11之间的版本。建议使用Anaconda来管理环境，避免包冲突。
硬件要求：因为模型有17亿参数，为了获得较好的速度，建议使用英伟达（NVIDIA）的独立显卡，显存至少需要4GB。如果没有GPU，也可以用CPU运行，只是速度会慢一些。

安装步骤非常简单，打开你的命令行终端（Windows上是CMD或PowerShell，macOS/Linux上是Terminal），依次执行下面的命令：

# 1. 克隆项目代码到本地 git clone https://github.com/your-repo/qwen3-asr-tool.git cd qwen3-asr-tool # 2. 创建并激活一个独立的Python虚拟环境（推荐，避免污染系统环境） conda create -n qwen_asr python=3.10 conda activate qwen_asr # 3. 安装项目依赖包 pip install -r requirements.txt

requirements.txt文件里已经包含了所有必要的库，比如深度学习框架PyTorch、语音处理库torchaudio，以及构建界面的Streamlit等。执行完上述命令，基础环境就准备好了。

1.2 下载与配置语音识别模型

工具的核心是Qwen3-ASR-1.7B模型。我们需要把它下载到本地。

# 在项目根目录下，运行模型下载脚本 python download_model.py

这个脚本会自动从模型仓库下载预训练好的模型文件。由于模型大小约几个GB，下载时间取决于你的网速，请耐心等待。下载完成后，模型会保存在项目目录下的models/qwen3-asr-1.7b文件夹里。

重要提示：首次运行识别时，工具会自动根据你的硬件（有无GPU）来优化加载模型，这个过程可能需要一两分钟，属于正常现象。

2. 启动工具与界面初识

环境准备好后，我们就可以启动这个工具的图形界面了。

2.1 一键启动Web界面

在命令行中，确保你还在项目目录下，并且已经激活了qwen_asr虚拟环境，然后运行：

streamlit run app.py

几秒钟后，命令行会显示一个本地网络地址，通常是http://localhost:8501。用你电脑上的浏览器（Chrome、Edge等）打开这个地址，就能看到工具的界面了。

界面非常简洁，主要分为两块：

左侧边栏：这里展示了当前使用的模型信息（Qwen3-ASR-1.7B）、参数规模（17亿）和显存占用提示。
主区域：这是我们的操作核心区，有文件上传区、音频播放器和识别结果展示区。

2.2 单文件测试：快速体验识别效果

在尝试批量处理前，我建议你先用单个文件试试水，感受一下1.7B模型的识别精度。

在界面中找到“上传音频文件”区域，点击上传按钮，选择一个你的MP3或WAV文件。
文件上传后，页面会自动生成一个音频播放器，你可以点击播放，确认这是你要处理的文件。
点击下方大大的“开始高精度识别”按钮。
稍等片刻（时间取决于音频长度和你的电脑性能），识别结果就会显示出来。你会看到系统自动检测出的语种（中文/英文），以及转换好的文字。1.7B版本在标点符号和长句断句上做得相当不错。

体验过后，你会发现用网页界面一个个上传文件，对于处理大量文件来说还是有点慢。别急，我们强大的批量处理功能马上就要登场了。

3. 核心实战：批量处理音频目录

图形界面适合偶尔处理一两个文件。而我们今天的重头戏，是使用命令行脚本，一次性处理整个文件夹里的所有音频。

3.1 准备你的音频仓库

首先，把你所有需要转换的MP3文件（也支持WAV, M4A等格式），都放到一个文件夹里。例如，我在电脑桌面上新建了一个文件夹，名叫meeting_recordings，把所有会议录音都丢了进去。

文件夹结构看起来是这样的：

meeting_recordings/ ├── 20240510_项目例会.mp3 ├── 20240515_客户访谈.m4a ├── 20240520_技术评审.wav └── ...

3.2 运行批量处理脚本

项目里已经为我们准备了一个超级方便的Python脚本batch_process.py。我们打开命令行，进入项目目录，运行它：

python batch_process.py --input_dir /path/to/your/meeting_recordings --output_dir ./transcription_results

这里需要替换一下路径：

--input_dir：后面跟着你放音频的文件夹的完整路径。比如C:\Users\YourName\Desktop\meeting_recordings或/home/YourName/Desktop/meeting_recordings。
--output_dir：后面跟着你想保存文字结果的文件夹路径。上面的例子./transcription_results表示在当前项目目录下创建一个新文件夹来保存。

运行命令后，脚本就会自动做下面几件事：

扫描目录：找到你指定文件夹里所有支持的音频文件。
逐个识别：按顺序加载每个文件，用Qwen3-ASR-1.7B模型进行语音转文字。
保存结果：为每个音频文件生成对应的文本文件。

3.3 导出多种格式：TXT, SRT, JSON

默认情况下，脚本会为每个音频生成一个同名的.txt文件，里面是纯文本。但我们的工具功能不止于此，它支持三种常用格式：

TXT：纯文本格式，适合快速阅读和存档。
SRT：字幕文件格式，包含时间戳，可以直接导入视频剪辑软件生成字幕。
JSON：结构化的数据格式，除了文本，还可能包含语种、置信度（如果模型提供）等信息，方便程序进一步处理。

要指定导出格式，只需要在命令中加上--output_format参数：

# 导出为SRT字幕格式 python batch_process.py --input_dir /path/to/your/audio --output_dir ./results --output_format srt # 导出为JSON格式 python batch_process.py --input_dir /path/to/your/audio --output_dir ./results --output_format json # 你也可以同时导出多种格式 python batch_process.py --input_dir /path/to/your/audio --output_dir ./results --output_format txt,srt,json

当你打开输出文件夹，就会看到像20240510_项目例会.txt、20240510_项目例会.srt这样的文件。SRT文件用记事本打开，可以看到时间轴和对应的台词，非常规整。

4. 进阶技巧与问题排查

掌握了基本操作后，再来看看如何用得更好，以及遇到问题怎么办。

4.1 提升处理效率与效果的小技巧

利用GPU加速：脚本会自动检测并使用GPU。确保你的PyTorch是GPU版本（安装时带了CUDA）。处理速度会比CPU快很多倍。
处理超长音频：如果某个会议录音特别长（比如超过1小时），模型处理时可能会占用较多内存。你可以使用专业的音频编辑软件（如Audacity）或FFmpeg命令，事先将其分割成每15-30分钟一段，再进行批量处理，稳定性更高。
中英文混合内容：Qwen3-ASR-1.7B在自动语种检测和混合识别上很强。但如果遇到识别不准的情况，可以尝试在命令中通过--language参数手动指定zh（中文）或en（英文），给模型一个提示。

4.2 常见问题与解决方法

报错：显存不足（CUDA out of memory）这是最常见的问题。1.7B模型在FP16精度下需要约4-5GB显存。如果你的显卡显存较小，可以尝试以下方法：
1. 在运行命令中添加--device cpu参数，强制使用CPU进行识别（速度慢，但能运行）。
2. 关闭电脑上其他占用显存的程序，如游戏、大型设计软件。
3. 使用音频分割法，处理更短的音频片段。
报错：找不到模型文件请确认你是否成功运行了python download_model.py并且下载完成。检查models/目录下是否存在qwen3-asr-1.7b文件夹及其中的文件。
识别结果中有少量错误语音识别目前无法达到100%准确，特别是面对口音重、背景嘈杂、多人同时说话的音频。对于非常重要的文稿，可以将识别结果作为初稿，再进行快速的人工校对和修正，这依然比从头听写要节省90%以上的时间。