当前位置：首页 > news >正文

Fun-ASR语音舆情分析：公众讲话内容的情感倾向识别初探

news 2026/3/27 5:07:08

Fun-ASR语音舆情分析：公众讲话内容的情感倾向识别初探

1. 引言

随着人工智能技术的快速发展，语音识别（ASR）在公共事务、媒体传播和企业服务中的应用日益广泛。特别是在舆情监测领域，如何从海量公众讲话、会议录音或社交媒体音频中提取关键信息并判断情感倾向，成为一项重要课题。

Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统，具备高精度、多语言支持和低延迟等优势，已在多个实际场景中验证其稳定性与实用性。本文将围绕 Fun-ASR 的 WebUI 系统展开，重点探讨其在公众讲话内容的情感倾向识别初步实践中的潜力与路径。

虽然当前 Fun-ASR WebUI 主要聚焦于语音转文字的基础功能，但通过结合后处理模块（如自然语言理解 NLU 和情感分析模型），可构建完整的“语音→文本→情感”分析流水线，为舆情监控提供自动化解决方案。

2. Fun-ASR WebUI 功能概览

2.1 核心功能模块

Fun-ASR WebUI 提供了六大核心功能模块，覆盖从单文件识别到批量处理的全流程需求：

功能	说明	舆情相关价值
语音识别	单个音频转写	获取原始发言内容
实时流式识别	麦克风实时转文字	监控现场发言情绪变化
批量处理	多文件自动识别	分析大量访谈或会议记录
识别历史	记录管理与回溯	建立语料库用于趋势分析
VAD 检测	语音活动检测	过滤无效片段，提升效率
系统设置	模型与性能配置	优化资源调度以适应大规模任务

这些功能为后续进行情感分析提供了高质量的文本输入基础。

2.2 技术支撑能力

模型名称：Fun-ASR-Nano-2512
支持语言：中文、英文、日文（共支持31种语言）
音频格式：WAV, MP3, M4A, FLAC 等
运行模式：GPU / CPU / MPS（Apple Silicon）
性能表现：
GPU 模式下接近实时识别（1x 速度）
CPU 模式约为 0.5x 速度
支持热词增强与 ITN 文本规整

关键提示：ITN（Inverse Text Normalization）功能能将口语表达（如“二零二五年”）自动转换为标准书面形式（“2025年”），有助于提升后续情感分析模型的理解准确率。

3. 公众讲话情感倾向识别的技术路径

3.1 整体流程设计

要实现从原始音频到情感倾向输出的完整链路，需构建如下四步流程：

语音采集与预处理
输入来源：会议录音、电话访谈、直播视频等
使用 VAD 检测去除静音段，提高识别效率
语音识别（ASR）
利用 Fun-ASR 完成高精度语音转写
输出带时间戳的文本结果（含规整后版本）
文本清洗与分段
按发言人或语义单元切分长文本
去除重复词、语气助词等干扰项
情感倾向分析（Sentiment Analysis）
接入轻量级 NLP 模型（如 BERT-based 分类器）
输出情感标签：正面 / 中性 / 负面
可扩展至细粒度情绪分类（愤怒、焦虑、期待等）

该流程可通过脚本化方式集成至现有系统，形成端到端的舆情分析平台。

3.2 关键技术点解析

3.2.1 热词优化提升专业术语识别

在公众讲话中常出现特定关键词（如政策名称、机构简称）。若未正确识别，会影响情感判断准确性。

解决方案：使用 Fun-ASR 的热词功能，提前注入领域词汇。

热词示例： 智慧城市 碳中和目标 营商环境 民生保障

启用后，“碳中和”不再被误识为“探中核”，确保上下文语义连贯。

3.2.2 批量处理助力大规模语料分析

对于需要分析上百场社区听证会或新闻发布会的场景，手动操作不可行。

推荐做法： - 将所有音频归类存放 - 使用“批量处理”功能统一上传 - 导出 CSV 结果文件，包含文件名、原文、规整文本、时间戳等字段 - 后续导入 Python 或 R 进行批量情感打标

import pandas as pd from transformers import pipeline # 加载情感分析模型 sentiment_pipeline = pipeline("sentiment-analysis", model="uer/roberta-base-finetuned-chinanews") # 读取 ASR 输出结果 df = pd.read_csv("asr_output.csv") results = [] for text in df["normalized_text"]: result = sentiment_pipeline(text[:512]) # 截断过长文本 results.append(result[0]["label"]) df["sentiment"] = results df.to_csv("final_with_sentiment.csv", index=False)

此代码展示了如何将 Fun-ASR 输出接入 HuggingFace 情感分析模型，实现自动化打标。

3.2.3 实时流式识别用于动态情绪追踪

在新闻发布会或突发事件直播中，决策者需快速掌握公众反应。

可行方案： - 使用“实时流式识别”功能监听麦克风输入 - 每隔 10 秒截取一段识别文本 - 实时调用情感模型计算当前情绪得分 - 可视化情绪曲线图，辅助判断舆论走向

⚠️ 注意：当前“实时流式识别”为模拟实现（基于 VAD 分段 + 快速识别），非真正流式推理，存在轻微延迟。

4. 应用案例：某市政务热线语音分析试点

4.1 场景背景

某市政府希望了解市民对近期供暖调整政策的情绪反馈。已有 200 条热线通话录音（平均每条 8 分钟），需完成以下任务： - 转写全部录音内容 - 统计负面情绪占比 - 提取高频投诉关键词

4.2 实施步骤

数据准备
将所有录音文件整理至calls_winter_heating/目录
准备热词列表，加入“供暖”、“室温”、“缴费时间”等术语
批量识别
进入 Fun-ASR WebUI → 批量处理页面
上传全部文件，设置目标语言为“中文”，启用 ITN 和热词
开始批量处理，耗时约 40 分钟（GPU 加速）
结果导出
导出 JSON 格式结果，包含每条记录的原始文本与规整文本
情感分析
使用本地部署的 RoBERTa 情感分类模型对规整文本打标
统计结果显示：
- 正面情绪：23%
- 中性情绪：41%
- 负面情绪：36%
关键词提取
对负面文本使用 TF-IDF 算法提取关键词
高频词包括：“温度不够”、“维修慢”、“通知晚”

4.3 成果输出

最终生成一份可视化报告，包含： - 情绪分布饼图 - 时间轴上的情绪波动曲线 - 高频问题词云图 - 典型负面语句摘录

该报告直接提交给市政管理部门，作为政策微调的重要参考依据。

5. 局限性与优化建议

5.1 当前限制

尽管 Fun-ASR 在语音识别层面表现出色，但在直接用于舆情分析时仍存在以下挑战：

问题	描述
缺乏原生情感分析模块	需额外集成第三方 NLP 模型
实时性受限	流式识别为模拟实现，延迟较高
无说话人分离功能	多人对话无法区分角色
不支持方言识别	方言口音可能导致识别偏差