当前位置：首页 > news >正文

FireRedASR-AED-L部署指南：Ubuntu20.04环境配置全解析

news 2026/5/12 18:53:40

FireRedASR-AED-L部署指南：Ubuntu20.04环境配置全解析

语音识别技术正在改变我们与设备交互的方式，而FireRedASR-AED-L作为一款工业级的开源语音识别模型，在普通话、方言和英语识别方面表现出色。今天我就来手把手教你在Ubuntu 20.04系统上快速部署这个强大的语音识别工具。

1. 环境准备与系统要求

在开始之前，我们先确认一下你的系统是否满足基本要求。FireRedASR-AED-L对硬件和软件环境都有一些基本需求，不过别担心，大部分现代电脑都能满足。

系统要求：

Ubuntu 20.04 LTS（其他版本可能兼容，但建议使用20.04）
Python 3.10（这是必须的，不支持更低版本）
至少16GB内存（处理大文件时需要更多）
NVIDIA GPU（推荐，CPU也能运行但速度较慢）
至少20GB可用磁盘空间（用于模型和依赖包）

如果你用的是云服务器，选择配备GPU的实例会获得更好的性能。本地开发的话，确保你的显卡驱动已经正确安装。

2. 基础环境配置

让我们从最基础的系统环境开始配置。打开终端，依次执行以下命令：

# 更新系统包列表 sudo apt update # 安装基础开发工具 sudo apt install -y build-essential git curl wget # 安装Python开发依赖 sudo apt install -y python3.10 python3.10-dev python3-pip # 创建Python虚拟环境 python3.10 -m venv fireredasr-env source fireredasr-env/bin/activate

这里我建议使用虚拟环境，这样可以避免与系统其他Python项目产生冲突。激活虚拟环境后，终端的提示符前面会出现(fireredasr-env)字样，表示你现在在这个环境中工作。

3. 安装核心依赖

现在我们来安装FireRedASR-AED-L运行所需的核心依赖包。这些包括深度学习框架、音频处理库等。

# 安装PyTorch（根据你的CUDA版本选择） # 如果你有CUDA 11.7或更高版本 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 # 如果没有GPU，使用CPU版本 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu # 安装其他依赖 pip install numpy scipy librosa soundfile transformers

安装过程中如果遇到网络问题，可以考虑使用国内镜像源，比如清华源或者阿里云源，只需要在pip install命令后面加上-i https://pypi.tuna.tsinghua.edu.cn/simple。

4. 获取FireRedASR代码和模型

依赖安装完成后，我们来获取最新的代码和预训练模型。

# 克隆项目代码 git clone https://github.com/FireRedTeam/FireRedASR.git cd FireRedASR # 下载预训练模型（AED-L版本） # 你需要从Hugging Face下载模型文件： # https://huggingface.co/FireRedTeam/FireRedASR-AED-L # 将下载的模型文件放到pretrained_models目录下 # 创建模型目录 mkdir -p pretrained_models/FireRedASR-AED-L # 设置环境变量 export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH export PYTHONPATH=$PWD/:$PYTHONPATH

模型文件比较大，大概有几个GB，下载需要一些时间。如果下载中断，可以使用wget -c命令继续断点续传。

5. 安装项目特定依赖

现在我们来安装项目特有的依赖包，这些在requirements.txt文件中都有列出。

# 安装项目依赖 pip install -r requirements.txt # 额外安装一些可能需要的包 pip install sentencepiece protobuf

安装过程中如果出现某个包版本冲突，可以尝试指定版本号或者先卸载冲突的包再重新安装。

6. 音频处理工具安装

语音识别需要处理音频文件，所以我们还需要安装一些音频处理工具。

# 安装FFmpeg（用于音频格式转换） sudo apt install -y ffmpeg # 安装sox（音频处理工具） sudo apt install -y sox

FFmpeg是一个强大的多媒体处理工具，我们将用它来将音频文件转换为模型需要的格式：16kHz采样率、16位PCM编码、单声道的WAV文件。

7. 验证安装结果

现在让我们验证一下所有组件是否都正确安装了。

# 检查Python版本 python --version # 应该显示Python 3.10.x # 检查PyTorch是否能正常使用GPU python -c "import torch; print(torch.cuda.is_available())" # 如果显示True表示GPU可用 # 检查主要依赖包 python -c "import numpy, torch, librosa; print('所有依赖包都已正确安装')"

如果所有检查都通过，恭喜你！基础环境已经配置完成。

8. 快速测试运行

让我们用一个简单的测试来验证整个系统是否能正常工作。

# 切换到示例目录 cd examples # 运行一个简单的测试脚本 python -c " from fireredasr.models.fireredasr import FireRedAsr import torch # 检查GPU是否可用 device = 'cuda' if torch.cuda.is_available() else 'cpu' print(f'使用设备: {device}') # 尝试加载模型（这里只是测试，实际使用需要下载模型文件） try: model = FireRedAsr.from_pretrained('aed', 'pretrained_models/FireRedASR-AED-L') print('模型加载成功！') except Exception as e: print(f'模型加载测试完成，但需要下载模型文件: {e}') "

这个测试会检查环境配置是否正确，如果显示"模型加载测试完成，但需要下载模型文件"是正常的，因为我们还没有放入实际的模型文件。

9. 常见问题解决

在部署过程中可能会遇到一些问题，这里我总结了一些常见问题和解决方法：

问题1：CUDA版本不匹配

# 查看CUDA版本 nvidia-smi nvcc --version # 根据实际CUDA版本安装对应的PyTorch

问题2：内存不足如果遇到内存不足的错误，可以尝试减小batch size或者使用CPU模式运行。

问题3：音频格式问题确保音频文件是16kHz、16位、单声道的WAV格式，可以使用FFmpeg转换：

ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav

问题4：依赖冲突如果遇到包版本冲突，可以尝试重新创建虚拟环境，然后按照顺序安装依赖。

10. 实际使用示例

环境配置完成后，让我们看看怎么实际使用这个模型：

from fireredasr.models.fireredasr import FireRedAsr # 初始化模型 model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L") # 准备测试数据 batch_uttid = ["test_audio_1"] batch_wav_path = ["path/to/your/audio.wav"] # 进行语音识别 results = model.transcribe( batch_uttid, batch_wav_path, { "use_gpu": 1, # 使用GPU "beam_size": 3, # 束搜索大小 "nbest": 1, # 返回最佳结果 } ) print(results)