当前位置：首页 > news >正文

小白入门：FUTURE POLICE语音分析结果MySQL存储三步走

news 2026/3/26 22:02:02

小白入门：FUTURE POLICE语音分析结果MySQL存储三步走

1. 为什么要存储语音分析结果？

当你使用FUTURE POLICE完成语音分析后，通常会得到包含时间戳的文本、情感标签、关键词等丰富数据。这些数据如果只是以文件形式散落在电脑里，就像把重要文件随意堆放在桌上——找起来费时费力，更难以进行系统分析。

将结果存入MySQL数据库可以带来三大优势：

高效检索：不用再翻找成百上千个文件，一句SQL就能定位到需要的对话片段
深度分析：轻松实现情感趋势统计、关键词频率分析等高级功能
长期积累：建立可追溯的语音资料库，方便后续业务决策和模型优化

想象一下，当客服主管想统计一周内客户投诉的高峰时段，或者培训师想找出优秀服务案例，数据库查询只需几秒钟，而手动查找可能需要几小时。

2. 准备工作：数据库环境搭建

2.1 安装MySQL数据库

对于Windows用户，推荐使用MySQL Installer（官网可下载）。安装时注意：

选择"Developer Default"配置
设置好root账户密码
记住安装目录（默认在C:\Program Files\MySQL）

macOS用户可以通过Homebrew安装：

brew install mysql brew services start mysql

2.2 创建专用数据库

登录MySQL后执行以下命令：

CREATE DATABASE voice_analysis CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; CREATE USER 'voice_user'@'localhost' IDENTIFIED BY 'YourPassword123'; GRANT ALL PRIVILEGES ON voice_analysis.* TO 'voice_user'@'localhost'; FLUSH PRIVILEGES;

2.3 Python环境配置

确保已安装Python 3.7+，然后安装必要库：

pip install mysql-connector-python pymysql

3. 实战操作：从分析到存储全流程

3.1 设计数据库表结构

我们设计三张核心表来存储不同维度的信息：

-- 任务记录表 CREATE TABLE analysis_tasks ( task_id VARCHAR(36) PRIMARY KEY, audio_file VARCHAR(255) NOT NULL, duration FLOAT COMMENT '音频时长(秒)', model_version VARCHAR(50), create_time DATETIME DEFAULT CURRENT_TIMESTAMP ); -- 文本分段表 CREATE TABLE transcript_segments ( segment_id INT AUTO_INCREMENT PRIMARY KEY, task_id VARCHAR(36) NOT NULL, start_time FLOAT NOT NULL COMMENT '开始时间(秒)', end_time FLOAT NOT NULL COMMENT '结束时间(秒)', content TEXT NOT NULL, sentiment VARCHAR(20), FOREIGN KEY (task_id) REFERENCES analysis_tasks(task_id) ); -- 关键词表 CREATE TABLE segment_keywords ( keyword_id INT AUTO_INCREMENT PRIMARY KEY, segment_id INT NOT NULL, keyword VARCHAR(100) NOT NULL, confidence FLOAT, FOREIGN KEY (segment_id) REFERENCES transcript_segments(segment_id) );

3.2 Python存储代码实现

建立数据库连接工具类：

import mysql.connector from mysql.connector import Error class VoiceDB: def __init__(self): self.connection = None def connect(self): try: self.connection = mysql.connector.connect( host='localhost', database='voice_analysis', user='voice_user', password='YourPassword123' ) return self.connection except Error as e: print(f"数据库连接失败: {e}") raise

处理FUTURE POLICE分析结果的存储函数：

def save_analysis_result(db, task_id, audio_file, result_json): try: cursor = db.connection.cursor() # 存储任务信息 task_sql = """INSERT INTO analysis_tasks (task_id, audio_file, duration, model_version) VALUES (%s, %s, %s, %s)""" cursor.execute(task_sql, ( task_id, audio_file, result_json['duration'], result_json['model_version'] )) # 存储分段文本 segment_sql = """INSERT INTO transcript_segments (task_id, start_time, end_time, content, sentiment) VALUES (%s, %s, %s, %s, %s)""" keyword_sql = """INSERT INTO segment_keywords (segment_id, keyword, confidence) VALUES (%s, %s, %s)""" for segment in result_json['segments']: cursor.execute(segment_sql, ( task_id, segment['start'], segment['end'], segment['text'], segment.get('sentiment', {}).get('label') )) segment_id = cursor.lastrowid # 存储关键词 for keyword in segment.get('keywords', []): cursor.execute(keyword_sql, ( segment_id, keyword['text'], keyword['confidence'] )) db.connection.commit() print(f"成功存储任务 {task_id} 的分析结果") except Error as e: db.connection.rollback() print(f"存储失败: {e}") raise finally: cursor.close()

3.3 完整调用示例

# 模拟FUTURE POLICE分析结果 sample_result = { "duration": 62.5, "model_version": "FP-2.1.3", "segments": [ { "start": 0.0, "end": 5.2, "text": "您好，我想查询订单状态", "sentiment": {"label": "neutral", "score": 0.82}, "keywords": [ {"text": "查询", "confidence": 0.95}, {"text": "订单", "confidence": 0.98} ] }, { "start": 6.0, "end": 12.5, "text": "您的订单已发货，预计明天送达", "sentiment": {"label": "positive", "score": 0.91}, "keywords": [ {"text": "发货", "confidence": 0.97}, {"text": "送达", "confidence": 0.89} ] } ] } # 主程序 if __name__ == "__main__": db = VoiceDB() db.connect() import uuid task_id = str(uuid.uuid4()) audio_file = "customer_call_001.wav" try: save_analysis_result(db, task_id, audio_file, sample_result) finally: if db.connection: db.connection.close()

4. 数据查询与应用示例

4.1 基础查询

查询特定任务的所有分段内容：

SELECT start_time, end_time, content, sentiment FROM transcript_segments WHERE task_id = '你的任务ID' ORDER BY start_time;

4.2 情感分析统计

统计不同情感标签的出现频率：

SELECT sentiment, COUNT(*) as count FROM transcript_segments GROUP BY sentiment ORDER BY count DESC;

4.3 关键词关联查询

找出所有包含"投诉"的负面情绪片段：

SELECT s.start_time, s.content, k.keyword FROM transcript_segments s JOIN segment_keywords k ON s.segment_id = k.segment_id WHERE s.sentiment = 'negative' AND k.keyword LIKE '%投诉%';

5. 总结与进阶建议

通过以上三步，你已经完成了从FUTURE POLICE语音分析到MySQL存储的完整流程。这套方案可以轻松扩展到以下场景：

批量处理：使用循环处理多个音频文件的分析结果
定时任务：结合crontab实现定期分析存储
可视化展示：连接BI工具生成语音分析仪表盘

记住定期优化数据库：

-- 为常用查询字段添加索引 CREATE INDEX idx_task ON transcript_segments(task_id); CREATE INDEX idx_sentiment ON transcript_segments(sentiment); CREATE INDEX idx_keyword ON segment_keywords(keyword);