当前位置: 首页 > news >正文

ASR和TTS处理

1. ASR(Automatic Speech Recognition)自动语音识别

通过语音模型将人类语音转化为文本

常见开源/知名模型/工具:

  • Whisper (OpenAI):目前最主流的开源选择,支持多语言,识别精度高。

  • FunASR (阿里巴巴达摩院):专注中文场景,对嘈杂环境鲁棒性强。

    • Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳

 

ASR的处理流程

# 音频处理流程
原始音频文件(mp3, m4a, wav等)↓
[FFmpeg 解码] → 转换为原始PCM数据↓
[Paraformer 处理] → 语音识别↓
文本结果
原始长音频↓
[VAD模型] → 检测语音活动,分割音频↓
音频片段列表(时间戳标记)↓
[ASR模型] → 每个片段转为文本↓
无标点文本片段↓
[标点模型] → 添加标点符号↓
最终带标点文本(含时间戳)

1)Paraformer ASR模型

功能

  • 核心语音识别:将音频信号转换为文本

  • 声学建模:处理音频特征,识别音素/字词

  • 语言建模:结合语言上下文,提高识别准确性

特点

  • 输入要求:需要预分割的短音频片段

  • 输出格式:纯文本,无标点,无时间戳

  • 适用场景:已分割好的短音频文件

2)VAD模型(vad_model)- 语音活动检测

功能

  • 端点检测:检测音频中有人声的部分

  • 静音去除:过滤背景噪声和静音段

  • 说话人分段:识别说话人切换点

特点

  • 输出:带时间戳的短音频片段

原始音频: [静音10s] [语音5s] [静音3s] [语音8s] [静音...]
VAD处理后:          [片段1]           [片段2]
时间戳:         [10.0-15.0]      [18.0-26.0]

3)标点模型(punc_model)- 标点恢复

功能

  • 标点插入:在识别文本中添加标点符号

  • 文本格式化:提高文本可读性

  • 语义分段:根据语义插入适当标点

特点

  • 输出:带标点符号的文本

支持的标点类型:

,  逗号
.  句号
?  问号
!  感叹号
:  冒号
;  分号
"  引号
、 顿号
《 》书名号
( )括号

 

from funasr import AutoModel
import numpy as np# 使用一体化模型
model = AutoModel(model=r"E:\03_model\fun-asr-model\speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",vad_model=r"E:\03_model\fun-asr-model\speech_fsmn_vad_zh-cn-16k-common-pytorch",punc_model=r"E:\03_model\fun-asr-model\punc_ct-transformer_zh-cn-common-vocab272727-pytorch",device="cpu")# 1. 测试短音频
short_result = model.generate(input="vad_example.wav",  # 10秒音频batch_size_s=0,  # 不分片
)
print("短音频结果:", short_result[0]["text"])# 2. 测试长音频
long_result = model.generate(input="vad_example.wav",  # 5分钟音频batch_size_s=100,  # 启用分片处理
)
print("长音频结果:", long_result[0]["text"])
print("时间戳:", long_result[0]["timestamp"])

 

2. TTS(Text-To-Speech) 文本转语音

通过模型将文本自动转换为可听的语音(合成语音),语音中包含各种风格。

常见开源/知名模型/工具:

  • fun-CosyVoice:目前最主流的开源选择,支持多语言,识别精度高。

 

http://www.jsqmd.com/news/113066/

相关文章:

  • 2025家用与工业升降机核心性能评测报告:科技电梯、自行式升降平台、SGY剪叉式升降机、传菜机电梯、别墅家用电梯、剪叉自行式升降机 - 优质品牌商家
  • 考陪诊师在哪报名?认准北京守嘉陪诊 高通过率+免费实习 - 品牌排行榜单
  • 考陪诊师在哪报名?认准北京守嘉陪诊 高通过率+免费实习 - 品牌排行榜单
  • 2025年12月金属化妆品瓶盖,金属瓶盖,五金金属瓶盖厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 高精度气体在线测量推荐指南适配多行业场景需求 - 优质品牌商家
  • 2025年天津排名前五石墨烯涂料批发怎么选择,石墨烯涂料/环氧玻璃钢/环氧酚醛/光固化保护套/无溶剂环氧涂料石墨烯涂料定制有哪些 - 品牌推荐师
  • 2025年12月药剂搅拌桶,塑料搅拌桶,搅拌桶厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 利用HtmlAgilityPack抓取网页的标题
  • 2025医药行业药品翻译优质服务推荐榜 - 专业合规与效率双 - 优质品牌商家
  • 厦门同安装修公司怎么选?3家宝藏公司实测推荐+避坑指南,装修小白直接抄作业! - 品牌测评鉴赏家
  • 厦门翔安装修公司推荐2025|本地业主实测靠谱榜!避坑指南附报价 - 品牌测评鉴赏家
  • 深度神经网络层归一化技术详解
  • 2026 小程序开发公司实力榜:技术 / 服务双优 - 资讯焦点
  • 环保电力化工微量气体在线测量哪家强优质产品推荐指南:在线气体分析、在线监测氨逃逸、工业气体在线测量、氨逃逸在线分析系统 - 优质品牌商家
  • 厦门湖里装修公司哪家好?2025本地博主实测推荐+避坑指南 - 品牌测评鉴赏家
  • 想学影视后期,哪个机构靠谱?看梵映教育的真实学员口碑。 - 资讯焦点
  • 2025年12月食品报废,报废,食品报废公司推荐:行业测评与选择指南 - 品牌鉴赏师
  • 2025年12月液体浓度计,氨水浓度计,音叉浓度计厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 数据采集与融合技术大作业
  • 厦门集美装修公司哪家好?2025本地业主实测口碑榜+避坑指南 - 品牌测评鉴赏家
  • 2025升降机械优质品牌推荐榜技术服务双优指引 - 优质品牌商家
  • 2025年上海紧固件展服务商权威推荐榜单:紧固件展地点/2026上海紧固件展/紧固件展时间一体化服务商精选 - 品牌推荐官
  • 2025年12月标准翻译,手册翻译,翻译服务公司推荐:行业测评与选择指南 - 品牌鉴赏师
  • 2025年兼容竹浆秸秆浆卫生纸加工设备深度评测报告 - 优质品牌商家
  • 137_尚硅谷_Go时间函数课堂练习
  • 2025年12月转矩传感器,扭矩传感器,动态扭矩传感器厂家推荐:行业测评与选择指南 - 品牌鉴赏师
  • 福州科莱特教育科技有限公司好吗?企业合作案例 + 零基础学员转型故事告诉你 - 资讯焦点
  • 厦门海沧装修公司怎么选不踩坑?3家口碑王亲测推荐! - 品牌测评鉴赏家
  • 权威采购指南:赛默飞Micro17/Pico17/ST1R离心机经销商盘点(2025年12月) - 品牌推荐大师1
  • 2025义乌智能营销服务商推荐榜:聚焦AI搜索与短视频增长新动力 - 呼呼拉呼