当前位置：首页 > news >正文

保姆级教学：用FUTURE POLICE和MySQL管理你的语音字幕数据

news 2026/6/12 15:08:03

保姆级教学：用FUTURE POLICE和MySQL管理你的语音字幕数据

1. 为什么需要管理语音字幕数据？

想象一下这样的场景：你刚刚用FUTURE POLICE处理了100个会议录音，得到了精确到毫秒的字幕文件。这些文件散落在各个文件夹里，当你需要查找某个特定话题的讨论片段时，不得不一个个打开文件搜索，既耗时又容易遗漏重要内容。

这就是我们需要数据库的原因。把FUTURE POLICE生成的语音字幕数据存入MySQL，相当于给你的音频内容装上了"搜索引擎"。你可以：

秒速找到包含特定关键词的所有对话片段
统计不同发言人的讲话时长分布
分析会议中讨论热点的时间分布
建立完整的语音资料库，方便长期回溯和审计

2. 环境准备与快速部署

2.1 基础环境要求

在开始之前，请确保你的系统满足以下条件：

已安装FUTURE POLICE语音解构系统（可参考官方文档部署）
MySQL 5.7或以上版本
Python 3.6+
基本的命令行操作知识

2.2 MySQL数据库设置

首先，我们需要创建一个专用数据库和用户：

CREATE DATABASE voice_subtitle_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; CREATE USER 'subtitle_user'@'localhost' IDENTIFIED BY 'YourPassword123'; GRANT ALL PRIVILEGES ON voice_subtitle_db.* TO 'subtitle_user'@'localhost'; FLUSH PRIVILEGES;

2.3 Python依赖安装

安装必要的Python库：

pip install mysql-connector-python pydub

3. 数据库设计：存储语音字幕数据

3.1 核心表结构设计

我们设计三张表来存储语音字幕数据：

-- 音频文件元数据表 CREATE TABLE audio_files ( file_id VARCHAR(36) PRIMARY KEY, file_name VARCHAR(255) NOT NULL, file_path VARCHAR(512) NOT NULL, duration FLOAT COMMENT '音频时长(秒)', sample_rate INT COMMENT '采样率', channels INT COMMENT '声道数', file_size BIGINT COMMENT '文件大小(字节)', upload_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ); -- 字幕片段表 CREATE TABLE subtitle_segments ( segment_id BIGINT PRIMARY KEY AUTO_INCREMENT, file_id VARCHAR(36) NOT NULL, start_time FLOAT NOT NULL COMMENT '开始时间(秒)', end_time FLOAT NOT NULL COMMENT '结束时间(秒)', text_content TEXT NOT NULL, speaker_tag VARCHAR(50) COMMENT '说话人标记', confidence FLOAT COMMENT '识别置信度', FOREIGN KEY (file_id) REFERENCES audio_files(file_id) ON DELETE CASCADE, INDEX idx_time_range (start_time, end_time), INDEX idx_file (file_id) ); -- 处理任务记录表 CREATE TABLE processing_tasks ( task_id VARCHAR(36) PRIMARY KEY, file_id VARCHAR(36) NOT NULL, model_version VARCHAR(50) NOT NULL, status ENUM('pending', 'processing', 'completed', 'failed') DEFAULT 'pending', start_time TIMESTAMP NULL, end_time TIMESTAMP NULL, error_message TEXT, FOREIGN KEY (file_id) REFERENCES audio_files(file_id) ON DELETE CASCADE );

3.2 表结构说明

audio_files：存储音频文件的基本信息
subtitle_segments：存储FUTURE POLICE生成的精确字幕片段
processing_tasks：记录每次字幕生成任务的状态和结果

4. 从FUTURE POLICE到MySQL：完整数据流程

4.1 准备音频文件

首先，我们需要将音频文件信息存入数据库：

import mysql.connector from mysql.connector import Error import uuid from pydub import AudioSegment def save_audio_file(file_path): """分析音频文件并存入数据库""" try: # 读取音频文件元数据 audio = AudioSegment.from_file(file_path) file_name = file_path.split('/')[-1] file_id = str(uuid.uuid4()) # 连接数据库 conn = mysql.connector.connect( host='localhost', database='voice_subtitle_db', user='subtitle_user', password='YourPassword123' ) cursor = conn.cursor() # 插入音频文件记录 insert_query = """ INSERT INTO audio_files (file_id, file_name, file_path, duration, sample_rate, channels, file_size) VALUES (%s, %s, %s, %s, %s, %s, %s) """ cursor.execute(insert_query, ( file_id, file_name, file_path, len(audio)/1000.0, # 转换为秒 audio.frame_rate, audio.channels, audio.frame_count() * audio.frame_width * audio.channels )) conn.commit() print(f"音频文件 {file_name} 已成功存入数据库，ID: {file_id}") return file_id except Error as e: print(f"数据库错误: {e}") return None finally: if conn.is_connected(): cursor.close() conn.close()

4.2 调用FUTURE POLICE API生成字幕

假设FUTURE POLICE提供了Python SDK，我们可以这样调用：

from future_police import AlignerClient def generate_subtitles(file_path, file_id): """调用FUTURE POLICE生成字幕并存入数据库""" try: # 创建处理任务记录 task_id = str(uuid.uuid4()) conn = mysql.connector.connect( host='localhost', database='voice_subtitle_db', user='subtitle_user', password='YourPassword123' ) cursor = conn.cursor() # 记录任务开始 cursor.execute(""" INSERT INTO processing_tasks (task_id, file_id, model_version, status, start_time) VALUES (%s, %s, %s, 'processing', NOW()) """, (task_id, file_id, "Qwen3-ForcedAligner-0.6B")) conn.commit() # 调用FUTURE POLICE API client = AlignerClient() result = client.align(file_path) # 解析结果并存入数据库 if result['status'] == 'success': segments = result['segments'] segment_values = [] for seg in segments: segment_values.append(( file_id, seg['start'], seg['end'], seg['text'], seg.get('speaker', 'unknown'), seg.get('confidence', 1.0) )) # 批量插入字幕片段 insert_segments = """ INSERT INTO subtitle_segments (file_id, start_time, end_time, text_content, speaker_tag, confidence) VALUES (%s, %s, %s, %s, %s, %s) """ cursor.executemany(insert_segments, segment_values) # 更新任务状态 cursor.execute(""" UPDATE processing_tasks SET status='completed', end_time=NOW() WHERE task_id=%s """, (task_id,)) conn.commit() print(f"成功处理 {len(segments)} 个字幕片段") else: raise Exception("FUTURE POLICE处理失败") except Exception as e: # 记录失败状态 cursor.execute(""" UPDATE processing_tasks SET status='failed', end_time=NOW(), error_message=%s WHERE task_id=%s """, (str(e), task_id)) conn.commit() print(f"处理失败: {e}") finally: if conn.is_connected(): cursor.close() conn.close()

4.3 完整处理流程示例

# 示例：处理一个音频文件的全流程 audio_path = "/path/to/your/audio.wav" # 第一步：保存音频文件信息 file_id = save_audio_file(audio_path) if file_id: # 第二步：生成字幕并存入数据库 generate_subtitles(audio_path, file_id)

5. 实用查询示例：挖掘语音字幕价值

5.1 基础查询

查找特定文件的所有字幕：

SELECT start_time, end_time, text_content FROM subtitle_segments WHERE file_id = 'your-file-id' ORDER BY start_time;

统计说话人时长分布：

SELECT speaker_tag, SUM(end_time - start_time) as speaking_time FROM subtitle_segments WHERE file_id = 'your-file-id' GROUP BY speaker_tag ORDER BY speaking_time DESC;

5.2 高级分析

查找包含特定关键词的片段：

def search_segments(keyword, file_id=None): """搜索包含关键词的字幕片段""" try: conn = mysql.connector.connect( host='localhost', database='voice_subtitle_db', user='subtitle_user', password='YourPassword123' ) cursor = conn.cursor(dictionary=True) query = """ SELECT s.start_time, s.end_time, s.text_content, s.speaker_tag, a.file_name, TIMESTAMPDIFF(SECOND, a.upload_time, NOW()) as days_ago FROM subtitle_segments s JOIN audio_files a ON s.file_id = a.file_id WHERE s.text_content LIKE %s """ params = [f"%{keyword}%"] if file_id: query += " AND s.file_id = %s" params.append(file_id) query += " ORDER BY s.start_time" cursor.execute(query, params) results = cursor.fetchall() print(f"找到 {len(results)} 个匹配片段:") for idx, seg in enumerate(results, 1): print(f"\n片段 {idx}:") print(f"文件: {seg['file_name']} (上传于 {seg['days_ago']} 天前)") print(f"时间: {seg['start_time']:.2f}-{seg['end_time']:.2f}秒") print(f"说话人: {seg['speaker_tag']}") print(f"内容: {seg['text_content']}") return results except Error as e: print(f"查询错误: {e}") return [] finally: if conn.is_connected(): cursor.close() conn.close()

分析会议讨论热点：

SELECT HOUR(FROM_UNIXTIME(start_time)) as hour_of_day, COUNT(*) as segment_count, AVG(end_time - start_time) as avg_duration FROM subtitle_segments WHERE file_id = 'meeting-recording-id' GROUP BY hour_of_day ORDER BY hour_of_day;