当前位置: 首页 > news >正文

erm:去除语音语气词的本地工具,解决手动删除痛苦!

1. erm:去除语音语气词的本地 CLI 工具是什么?

语言学家用“语流不畅词”(disfluencies)描述英语口语中填充停顿的“um”“uh”“er”等词及其拉长形式。作者因朋友手动删除语气词痛苦,开发了 [erm](https://github.com/dougcalobrisi/erm) 来解决问题。常见操作界面为“uvx erm input.wav”,它会生成清理后的 `.wav` 文件和 JSON 格式剪辑列表。

2. 简单方法为何行不通?

有人认为先转录找出语气词再用 ffmpeg 裁剪很简单,但只能达约 60% 效果,处理后音频更糟。原因有三:Whisper 会省略很多语气词;任意切割音频会产生“咔哒”声;切割前后背景噪音不匹配。

3. 关于 Whisper 有何说明?

[Whisper](https://github.com/openai/whisper) 是 OpenAI 开源的语音转文字模型,可本地运行。erm 使用 [ `faster-whisper` ](https://github.com/SYSTRAN/faster-whisper),速度快、内存占用少,默认用 `medium.en` 模型,也可指定 `small.en` 或 `large-v3` 模型。

4. 如何进行检测?

首先运行 Whisper,要求其提供单词级时间戳并别清理转录文本。识别出的已知语气词会被标记裁剪,拉长形式会与词根匹配。Whisper 会遗漏语气词,所以还需三次音频检查:间隙填充词检查、隐藏在单词中的填充词检查、过长单词检查。四次检查结果会合并。

5. 怎样优化裁剪点?

精确裁剪时波形可能产生台阶,出现“咔哒”声。有两个改进方法:先滑动裁剪端点找安静位置,再跳到波形过零处。之后清理短片段,短于约 120 毫秒的片段会合并到更大裁剪区域。

6. 如何进行拼接?

ffmpeg 用“交叉淡入淡出”技术拼接,根据裁剪大小调整重叠时长,重叠时长有上下限,且不跨越真实单词起始位置。

7. 如何处理环境噪音?

裁剪处背景噪音不匹配,解决方法是在原始录音中找安静片段循环播放到输出音频下方,默认自动查找,也可手动指定。

8. 降噪器为何关键?

ffmpeg 内置降噪器,但降噪会影响探测器查找语气词。erm 有四种模式,`hybrid` 是默认且最佳模式,`pre` 模式最差。

9. 如何进行验证?

音频处理可能出问题,有 `validate` 子命令,会进行三项检查:输出文件能正常打开;输出文件长度比输入文件短裁剪总长度;清理后文件转录无语气词。

10. erm 不处理哪些内容?

erm 不处理“like”“you know”和“I mean” 等词,也不处理重复单词、错误起始或长时间思考停顿,遵循只去除声音层面内容的原则。

11. 如何试用 erm?

最快试用方法是用 [uv](https://github.com/astral-sh/uv),也可常规安装。还需在 `PATH` 环境变量中配置 `ffmpeg` 和 `ffprobe`。音频在本地处理,常录制语音笔记或播客且说话有“um”的人可试试。

http://www.jsqmd.com/news/1003927/

相关文章:

  • Pandas多维聚合实战:构建可切片、上卷、下钻的数据立方体
  • VS2010一键编译的eXosip2 4.0.0 + osip2 4.0.0完整工程包(含Win32/MFC支持)
  • AI-产品经理实战项目必修课
  • 2026年包头保安岗亭选购指南:从材质到服务的多维度行业观察 - 优质品牌商家
  • 3步搭建浏览器本地AI助手:Page Assist完整指南
  • Linux ioc_timer_fn iocost定时器与hweight更新
  • 虚拟化软件替代方案:如何在3个步骤内找到最适合你的开源解决方案?
  • 2026年台州杭州岗亭选购指南:区域服务、技术适配与行业趋势深度分析 - 优质品牌商家
  • 2026年北京公司注册代理机构综合能力分析:服务范围、团队经验与真实案例解读 - 优质品牌商家
  • 2026河北油管厂家排行揭秘,这样选才不踩坑
  • 六盘水余生黄金回收实测 2026卖金价格指南 - 余生黄金回收
  • Cadence Virtuoso IC 618版图新手避坑:从DRC/LVS报错到电源环(Guard Ring)的正确画法
  • 吐血整理!支付宝小程序从“搜不到”到“排第一”的秘诀
  • 世界从来不是单一逻辑的产物,而是“可推导的骨架”与“不可推导的血肉”共同编织的复合体。
  • IC697BEM731Z控制器模块
  • 告别卡顿!在Uni-app里用海康H5Player播放WS视频流,保姆级接入教程(含RenderJS避坑)
  • 女性生理期健康护理常识:科学认知与日常养护建议
  • STM32F103ZE精英板ADC多路电压采集工程(含双电机实时监测与LCD显示)
  • 2026年你必须知道的5种DeFi智能合约漏洞——从100个真实案例看资产安全
  • 终极指南:如何使用Waifu2x-Extension-GUI让模糊图片视频变高清
  • 5分钟快速搭建OBS局域网直播系统:obs-rtspserver完全指南
  • 寄快递哪个平台最便宜?2026全网寄件渠道省钱对比 - 快递物流资讯
  • 如何让微信网页版重新可用:wechat-need-web技术方案深度解析
  • WinForm下可交互SVG图形控件:支持标注定位、元素锁定与操作回退
  • 从Arduino到ESP32:手把手教你调试I2C通信,搞定‘地址无响应’和波形毛刺
  • 计算机毕业设计之基于Python的校园书院预约系统的设计与实现
  • 保姆级教程:用Python一键下载处理CTU-13僵尸网络检测数据集(附完整代码)
  • Linux iocost_model校准权重与线性回归参数
  • 2026年江阴装修公司口碑观察:从设计到落地,这些企业值得关注(含无锡/苏州/张家港) - 优质品牌商家
  • 2026最新|别再花冤枉钱降重!亲测DeepSeek免费洗稿指令+4大工具,稳降至AIGC安全线 - 降AI实验室