当前位置：首页 > news >正文

Qwen3-ASR-1.7B与数据库集成：语音识别结果存储与检索方案

news 2026/4/14 12:37:01

Qwen3-ASR-1.7B与数据库集成：语音识别结果存储与检索方案

语音识别技术越来越普及，但识别出来的文字怎么管理、怎么快速查找，却是个实际问题。想象一下，你有一个智能会议系统，每天产生几百条语音记录，识别成文字后，怎么才能快速找到上个月某次会议上提到的"项目预算"讨论？单纯靠文件存储显然不够用。

这就是为什么要把语音识别结果存到数据库里。今天咱们就聊聊怎么把Qwen3-ASR-1.7B这个语音识别模型的识别结果，高效地存到MySQL数据库，还能实现快速检索。不管你是做会议系统、客服录音分析，还是语音笔记应用，这套方案都能直接用。

1. 整体方案设计

先说说为什么选MySQL。其实没那么多复杂原因，就是MySQL足够成熟稳定，社区支持好，而且全文检索功能也够用。当然你要是用PostgreSQL或者其他数据库，思路也差不多，只是具体语法有点区别。

整个方案的核心很简单：语音文件识别成文字后，不只是简单存个文本文件，而是把识别结果、时间信息、可能的说话人信息等都结构化地存到数据库里。这样以后想按内容搜索、按时间筛选，或者做统计分析，就都很方便了。

2. 数据库表设计

设计数据库表的时候，要考虑的不仅仅是存识别出来的文字，还要考虑后续怎么用这些数据。下面是我建议的表结构：

CREATE TABLE speech_recognition_results ( id INT AUTO_INCREMENT PRIMARY KEY, audio_file_path VARCHAR(500) NOT NULL COMMENT '原始音频文件路径', recognition_text TEXT NOT NULL COMMENT '识别出的文本内容', confidence_score FLOAT COMMENT '识别置信度', audio_duration INT COMMENT '音频时长（秒）', speaker_id VARCHAR(100) COMMENT '说话人标识', recognition_time DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '识别时间', created_at DATETIME DEFAULT CURRENT_TIMESTAMP, updated_at DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, INDEX idx_recognition_time (recognition_time), INDEX idx_speaker_id (speaker_id), FULLTEXT INDEX ft_recognition_text (recognition_text) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

这几个字段的设计都有考虑：audio_file_path留着以后可能需要回查原始音频；confidence_score可以帮我们过滤掉低置信度的识别结果；speaker_id在多说话人场景下很有用；最重要的是那个FULLTEXT索引，这就是实现全文检索的关键。

3. 语音识别结果存储

存数据看起来简单，但做不好容易成为性能瓶颈。特别是如果一下子要处理大量语音文件，直接一条条插入数据库会很慢。

先用Qwen3-ASR-1.7B做语音识别，拿到识别结果后，咱们用Python的MySQL连接库批量插入数据：

import mysql.connector from mysql.connector import Error def batch_insert_recognition_results(results_list): """ 批量插入语音识别结果 results_list: 包含多个识别结果的列表 """ try: connection = mysql.connector.connect( host='localhost', database='speech_db', user='your_username', password='your_password' ) if connection.is_connected(): cursor = connection.cursor() # 准备批量插入的SQL insert_query = """ INSERT INTO speech_recognition_results (audio_file_path, recognition_text, confidence_score, audio_duration, speaker_id, recognition_time) VALUES (%s, %s, %s, %s, %s, %s) """ # 准备数据 data_to_insert = [] for result in results_list: data_to_insert.append(( result['audio_path'], result['text'], result.get('confidence', 0.9), result.get('duration', 0), result.get('speaker_id', 'unknown'), result.get('recognition_time', None) )) # 批量插入 cursor.executemany(insert_query, data_to_insert) connection.commit() print(f"成功插入 {cursor.rowcount} 条记录") except Error as e: print(f"数据库错误: {e}") finally: if connection.is_connected(): cursor.close() connection.close()

实际项目中，我建议把数据库连接管理封装得好一点，用连接池避免频繁创建连接，还有记得处理各种异常情况。批量插入的时候，一批插100-500条比较合适，太多可能会超时。

4. 检索功能实现

存进去的数据要能快速查出来才有价值。MySQL自带的全文检索功能其实已经不错了，对于大部分语音识别结果的检索需求都够用。

4.1 基础关键词检索

最简单的就是按关键词搜索：

def search_by_keyword(keyword, limit=10): """ 根据关键词全文检索 """ try: connection = mysql.connector.connect( host='localhost', database='speech_db', user='your_username', password='your_password' ) if connection.is_connected(): cursor = connection.cursor(dictionary=True) search_query = """ SELECT id, audio_file_path, recognition_text, confidence_score, audio_duration, speaker_id, recognition_time FROM speech_recognition_results WHERE MATCH(recognition_text) AGAINST(%s IN NATURAL LANGUAGE MODE) ORDER BY recognition_time DESC LIMIT %s """ cursor.execute(search_query, (keyword, limit)) results = cursor.fetchall() return results except Error as e: print(f"数据库错误: {e}") return [] finally: if connection.is_connected(): cursor.close() connection.close() # 使用示例 search_results = search_by_keyword("项目预算", 10) for result in search_results: print(f"{result['recognition_time']} - {result['recognition_text'][:100]}...")

4.2 高级检索功能

光有关键词搜索还不够，实际应用中经常需要组合查询：

def advanced_search(keyword=None, speaker_id=None, start_date=None, end_date=None, min_confidence=0.7): """ 高级检索：支持多条件组合查询 """ try: connection = mysql.connector.connect( host='localhost', database='speech_db', user='your_username', password='your_password' ) if connection.is_connected(): cursor = connection.cursor(dictionary=True) # 动态构建查询条件 conditions = ["confidence_score >= %s"] params = [min_confidence] if keyword: conditions.append("MATCH(recognition_text) AGAINST(%s IN NATURAL LANGUAGE MODE)") params.append(keyword) if speaker_id: conditions.append("speaker_id = %s") params.append(speaker_id) if start_date: conditions.append("recognition_time >= %s") params.append(start_date) if end_date: conditions.append("recognition_time <= %s") params.append(end_date) where_clause = " AND ".join(conditions) if conditions else "1=1" search_query = f""" SELECT id, audio_file_path, recognition_text, confidence_score, audio_duration, speaker_id, recognition_time FROM speech_recognition_results WHERE {where_clause} ORDER BY recognition_time DESC """ cursor.execute(search_query, params) results = cursor.fetchall() return results except Error as e: print(f"数据库错误: {e}") return [] finally: if connection.is_connected(): cursor.close() connection.close()

这样设计后，你就能查询"某个说话人在某段时间内提到的某个关键词"了，非常实用。