当前位置：首页 > news >正文

FireRedASR Pro集成MySQL安装配置教程：构建语音数据管理后台

news 2026/7/6 13:12:45

FireRedASR Pro集成MySQL安装配置教程：构建语音数据管理后台

你是不是刚用FireRedASR Pro跑通了语音识别，看着一行行识别出的文字在终端里一闪而过，心里却有点犯嘀咕？这些宝贵的数据，难道每次都要重新识别？怎么才能把它们存起来，方便以后查询、分析，甚至做二次开发？

别急，今天咱们就来解决这个问题。我会手把手带你，给FireRedASR Pro装上一个“记忆大脑”——MySQL数据库。这样一来，每次识别的结果，不管是会议记录、访谈内容，还是客服录音的文字稿，都能自动、规整地存进数据库里。想查哪段、想分析什么，就是点几下鼠标或者敲一行命令的事儿。

整个过程就像搭积木，咱们分三步走：先把FireRedASR Pro在星图GPU平台上稳稳地跑起来；然后给它配一个专用的MySQL“仓库”；最后写个“搬运工”脚本，让识别结果自动入库。放心，哪怕你之前没怎么碰过数据库，跟着做也能搞定。

1. 第一步：在星图平台部署FireRedASR Pro

万事开头难，但咱们这个开头很简单。星图平台已经把环境打包好了，我们直接“开箱即用”。

1.1 创建并启动镜像实例

首先，你需要登录星图平台。在镜像广场里，找到FireRedASR Pro的镜像。这个镜像通常已经预置了Python、PyTorch以及FireRedASR Pro模型本身，省去了我们手动安装各种依赖的麻烦。

点击“部署”后，平台会让你选择实例的配置。对于语音识别，GPU是必须的，它能大幅提升推理速度。根据你的音频文件长度和并发需求，选择一款合适的GPU型号。内存和硬盘空间按默认配置或稍大一些即可。配置完成后，启动实例，等待几分钟，一个带有完整环境的云服务器就准备好了。

1.2 验证ASR服务运行

实例启动后，通过Web终端或者SSH连接进去。第一件事，就是确认FireRedASR Pro能不能正常工作。

你可以找一个短的测试音频文件（比如.wav格式），用下面这个简单的命令试试看：

# 假设你的测试音频叫 test_audio.wav python -m firedred_asr.cli --model-name "你的模型路径" --audio-path "test_audio.wav"

如果终端里清晰地打印出了识别出的文字，恭喜你，第一步的基石已经打牢了。如果遇到问题，通常是模型路径不对或者音频格式不支持，回头检查一下这两点。

2. 第二步：安装与配置MySQL数据库

现在，我们要为这些识别文字建立一个“家”。我们在同一个实例里安装MySQL，这样数据交互速度最快，也最方便管理。

2.1 安装MySQL服务器

在Ubuntu或Debian系统的实例里，安装MySQL非常方便。打开终端，依次执行以下命令：

# 更新软件包列表 sudo apt-get update # 安装MySQL服务器 sudo apt-get install mysql-server -y

安装过程中，可能会提示你设置root用户的密码。请务必设置一个强密码并牢记它，这是管理数据库的最高权限。

安装完成后，启动MySQL服务，并设置它开机自启：

sudo systemctl start mysql sudo systemctl enable mysql

2.2 进行安全初始化与创建专用数据库

刚安装的MySQL有一些默认设置不太安全，我们运行一个安全脚本来加固它：

sudo mysql_secure_installation

这个脚本会引导你完成几步操作：设置root密码（如果安装时没设）、移除匿名用户、禁止root远程登录、删除测试数据库等。对于生产环境，建议全部选择“Y”。

安全设置完成后，我们登录MySQL，为FireRedASR Pro创建一个专用的数据库和用户。这样做是为了安全，避免直接使用root账户。

# 以root身份登录MySQL sudo mysql -u root -p

输入密码后，进入MySQL命令行。然后执行以下SQL语句：

-- 创建一个专门用于存储语音识别结果的数据库 CREATE DATABASE firedred_asr_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; -- 创建一个新用户，并设置密码（请将 'your_strong_password' 替换成你自己的密码） CREATE USER 'asr_user'@'localhost' IDENTIFIED BY 'your_strong_password'; -- 授予这个用户对 firedred_asr_db 数据库的所有操作权限 GRANT ALL PRIVILEGES ON firedred_asr_db.* TO 'asr_user'@'localhost'; -- 让权限设置立即生效 FLUSH PRIVILEGES; -- 退出MySQL命令行 EXIT;

好了，数据库的“房子”和“管家”都准备好了。

3. 第三步：设计数据表与编写入库脚本

这是最核心的一步。我们需要设计一张表来合理存放识别结果，然后写一个Python脚本，在识别完成后自动把数据送进这张表。

3.1 设计语音识别结果表

我们的表需要记录哪些信息呢？除了最核心的识别文本，还有一些“元数据”非常重要，比如这段语音是谁的、什么时候识别的、对应的原始音频文件在哪。这样以后查找和分析才方便。

再次登录MySQL，这次用我们新建的asr_user账户，进入firedred_asr_db数据库来创建表：

mysql -u asr_user -p firedred_asr_db

输入密码后，执行建表SQL语句：

CREATE TABLE asr_results ( id INT AUTO_INCREMENT PRIMARY KEY, user_id VARCHAR(100), -- 用户标识，可以是用户名、工号等 audio_file_path VARCHAR(500), -- 原始音频文件的存储路径 recognized_text TEXT, -- 语音识别出的完整文本 start_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP, -- 识别任务开始时间 processing_duration FLOAT, -- 处理耗时（秒） confidence_score FLOAT, -- 识别置信度（如果模型提供） additional_info JSON, -- 其他额外信息，如分段结果、时间戳，用JSON格式灵活存储 created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP -- 记录创建时间 );

这张表的结构已经考虑得比较周全了。additional_info字段用了JSON类型，这是个妙招。因为不同场景下，你可能还想存别的东西，比如识别出的每句话的开始结束时间（时间戳），或者说话人分离的信息。用JSON字段，以后想加什么数据，直接往这个字段里塞一个JSON对象就行，不用频繁修改表结构，非常灵活。

3.2 编写Python数据入库脚本

现在，我们来编写连接数据库和插入数据的Python脚本。首先，确保安装了Python的MySQL连接器：

pip install mysql-connector-python

然后，创建一个名为asr_to_mysql.py的脚本。这个脚本的核心是两大部分：一是连接数据库的函数，二是插入数据的函数。

import mysql.connector from mysql.connector import Error import json from datetime import datetime import sys def create_db_connection(): """创建并返回一个到MySQL数据库的连接""" connection = None try: connection = mysql.connector.connect( host='localhost', # 数据库地址，因为同在实例内，所以是localhost user='asr_user', # 我们之前创建的用户名 password='your_strong_password', # 替换成你设置的密码 database='firedred_asr_db' # 数据库名 ) print("MySQL数据库连接成功") except Error as e: print(f"连接数据库时发生错误: '{e}'") sys.exit(1) # 连接失败，退出脚本 return connection def insert_asr_result(connection, asr_data): """将单条ASR结果插入数据库""" cursor = connection.cursor() # 准备SQL插入语句 insert_query = """ INSERT INTO asr_results (user_id, audio_file_path, recognized_text, processing_duration, confidence_score, additional_info) VALUES (%s, %s, %s, %s, %s, %s) """ # 准备要插入的数据元组 # 注意：additional_info 字段需要是JSON格式的字符串 record_to_insert = ( asr_data.get('user_id'), asr_data.get('audio_file_path'), asr_data.get('recognized_text'), asr_data.get('processing_duration'), asr_data.get('confidence_score'), json.dumps(asr_data.get('additional_info')) if asr_data.get('additional_info') else None ) try: cursor.execute(insert_query, record_to_insert) connection.commit() # 提交事务，使插入生效 print(f"数据插入成功，ID: {cursor.lastrowid}") except Error as e: print(f"插入数据失败: '{e}'") finally: cursor.close() # 示例：如何使用这个脚本 if __name__ == "__main__": # 1. 建立数据库连接 db_connection = create_db_connection() # 2. 模拟一段从FireRedASR Pro得到的识别结果 # 这里假设你已经通过某种方式（如下面的集成示例）拿到了这些数据 sample_result = { 'user_id': 'user_001', 'audio_file_path': '/data/audio/interview_20231020.wav', 'recognized_text': '你好，欢迎参加本次产品体验访谈。请问您对当前版本的使用感受如何？', 'processing_duration': 2.34, # 识别耗时2.34秒 'confidence_score': 0.92, # 置信度92% 'additional_info': { # 额外的JSON信息 'segments': [ {'text': '你好，', 'start': 0.0, 'end': 0.8}, {'text': '欢迎参加本次产品体验访谈。', 'start': 0.9, 'end': 3.2}, {'text': '请问您对当前版本的使用感受如何？', 'start': 3.5, 'end': 6.1} ], 'language': 'zh-CN' } } # 3. 调用函数，插入数据 insert_asr_result(db_connection, sample_result) # 4. 关闭数据库连接 if db_connection.is_connected(): db_connection.close() print("数据库连接已关闭")

你可以先运行一下这个脚本，看看能不能成功插入一条示例数据。如果成功了，就去MySQL里查一下：

SELECT * FROM asr_results;

应该能看到刚插入的那条记录。

4. 第四步：集成与自动化实战

脚本写好了，怎么让它和FireRedASR Pro联动起来，实现自动入库呢？这里给你提供两种最实用的思路。

4.1 方法一：修改识别脚本，直接入库

这是最直接的方法。找到你运行FireRedASR Pro的Python脚本（或者你自己写一个调用脚本），在得到识别结果后，立刻调用我们上面写的insert_asr_result函数。

假设你有一个run_asr.py的脚本，修改后的大致样子如下：

import firedred_asr # 导入我们刚才写的数据库操作模块 from asr_to_mysql import create_db_connection, insert_asr_result def main(audio_path, user_id): # 1. 连接数据库 db_conn = create_db_connection() # 2. 调用FireRedASR Pro进行识别 # 这里需要根据FireRedASR Pro的实际API进行调整 start_time = datetime.now() asr_result = firedred_asr.transcribe(audio_path) # 假设的API processing_duration = (datetime.now() - start_time).total_seconds() # 3. 组织要存储的数据 asr_data = { 'user_id': user_id, 'audio_file_path': audio_path, 'recognized_text': asr_result['text'], # 获取识别文本 'processing_duration': processing_duration, 'confidence_score': asr_result.get('confidence', 0.0), # 获取置信度，如果没有则默认为0 'additional_info': { 'raw_result': asr_result # 你也可以把原始结果整个存进去，方便调试 } } # 4. 插入数据库 insert_asr_result(db_conn, asr_data) # 5. 关闭连接 db_conn.close() print(f"识别完成，结果已存入数据库。文本：{asr_result['text'][:50]}...") # 打印前50个字符 if __name__ == "__main__": main("/path/to/your/audio.wav", "test_user")

4.2 方法二：结果写入文件，再由独立程序入库

如果你不想改动ASR的核心代码，或者处理的是批量文件，这个方法更清晰。让FireRedASR Pro把识别结果输出到一个JSON文件，然后写一个独立的“守护”程序（比如用cron定时任务），不断扫描这个文件夹，发现有新的结果文件就读取并存入数据库。

步骤1：修改ASR调用，将结果保存为JSON。

步骤2：编写一个file_watcher.py脚本，使用watchdog库监听文件变化，或者简单点，用cron每分钟执行一次，检查并处理新文件。

# file_watcher.py 简化示例 import os import json from asr_to_mysql import create_db_connection, insert_asr_result def process_result_file(file_path, db_connection): with open(file_path, 'r', encoding='utf-8') as f: result_data = json.load(f) # 假设result_data的结构和我们定义的asr_data一致 insert_asr_result(db_connection, result_data) # 可选：处理完后移动或删除文件，避免重复处理 os.rename(file_path, file_path + '.processed') def main(): result_dir = '/path/to/asr/results/' db_conn = create_db_connection() for filename in os.listdir(result_dir): if filename.endswith('.json'): file_path = os.path.join(result_dir, filename) print(f"处理文件: {filename}") process_result_file(file_path, db_conn) db_conn.close() if __name__ == "__main__": main()

然后，在系统的crontab里添加一行，让它每分钟跑一次：

* * * * * /usr/bin/python3 /path/to/your/file_watcher.py >> /tmp/asr_watcher.log 2>&1

5. 总结与后续建议

走完上面四步，一个能够自动存储语音识别结果的管理后台就初具雏形了。现在，你的FireRedASR Pro不再是“过耳即忘”，而是变成了一个持续积累知识资产的系统。你可以随时用SQL语句查询历史记录，或者用任何可视化工具（比如Grafana、Metabase）连接MySQL，做更直观的数据分析。

回顾一下，整个过程的关键其实就是“连接”二字：把成熟的ASR工具和同样成熟的数据库工具连接起来。难点不在于每一部分有多深奥，而在于让它们顺畅地协作。我建议你先用方法一，在单个文件的识别流程里把入库功能跑通，感受一下数据从音频变成文字，再自动跳进数据库表里的完整链条。这能帮你建立最强的信心。

当然，这只是一个起点。当数据多起来之后，你可能会考虑更多问题，比如给audio_file_path和user_id字段加索引来加快查询速度，或者定期清理旧数据。你也可以扩展asr_results表，增加status字段来标记识别状态（如排队中、识别中、完成、失败），这样就能构建一个简单的任务队列管理系统了。

最实在的建议是，立刻动手，用你手头的一段音频文件，从头到尾操作一遍。遇到报错别慌，那通常是路径、密码或者SQL语法的小问题，对照着教程一步步检查，很快就能解决。当你第一次在MySQL客户端里SELECT出自己识别并存储的文本时，那种一切尽在掌握的感觉，就是技术人最好的回报。