当前位置: 首页 > news >正文

OddAsr更新:将默认模型从moonshine改回paraformer

一、前言

前两天研究了一下Moonshine Voice,当时拿了几个简单的音频文件测试了一下,感觉效果还可以,所以我就开始将其整合到了OddASR项目里。

但是在完成了整合后,再进行测试的时候发现一些比较严重的问题,所以,我又赶紧把我刚刚上传到pypi的OddASR给撤了,然后重新将主力模型改回到paraformer-zh-streaming和paraformer-zh。

当前OddAsr最新版本:v2.1.0,已恢复paraformer模型。

以下是在OddAsr自带的测试界面上分别跑paraformer-zh和moonshine base模型的效果

二、安装测试 OddAsr

安装OddAsr

pip install oddasr

打开OddAsr的Demo Web

http://localhost:9002

注:首先安装的话,需要从huggingface.co下载模型,记得设镜像,否则国内无法访问。并且,如果你家的网速不是非常快的话,可能要下载个十几分钟到半个钟头。

测试音频

  • 前面一段和后面一段的声音都是干净的,转写效果非常好,准确率基本可认为100%;
  • 中间一段模拟了一些背景噪声与嘈杂环境,无论是持续的空调嗡鸣、键盘敲击声,还是突发的交通噪音、旁人交谈,都会干扰ASR模型,导致其识别错误甚至完全遗漏词语。

具体的声音情况可以看这个视频:

https://mp.weixin.qq.com/s/y4l-YtaUhayV9k9EDatCzw

注:这个视频中并未使用我的OddASR,效果差不是我OddAsr项目的锅。相反,下面我后来有将这个视频中的音频提取出来,专门作为OddAsr的一个测试集,每次测试不同的ASR模型的时候都会来测试一下这种场景。比如:这次的Moonshine base中文模型的测试。

三、测试效果

测试使用的音频就是上面那个视频里提取出来的音频。

paraformer模型效果

oddasr-2

只想用一个字来形容:bravo!

moonshine base模型效果

oddasr-2

看上去转写出来的每个发音都是对的,但是。。。。这些个字呢。。。。好像就没几个是对的。

四、总结

唉,如果不是因为我这个用了超过十年的老笔记本CPU不太够用,我也完全不想去折腾一些其他的轻量级的ASR模型。

http://www.jsqmd.com/news/662747/

相关文章:

  • TTS 缓存、回放与音频分发体系:从可用 Demo 到生产级高并发架构全解
  • 【2026奇点大会权威解密】:AGI能力评估的5大核心指标与3个被低估的失效风险
  • 事务---特性及所产生的问题(附代码演示示例)
  • AGI突破性进展全扫描,从MoE架构跃迁到具身推理闭环——SITS2026圆桌未公开数据首度披露
  • 别再死记硬背了!图解‘等价类’和‘划分’,帮你彻底理解数据库表设计中的范式
  • 别再死记硬背dim=0是行还是列了!用‘控制变量法’5分钟彻底搞懂PyTorch/TensorFlow的维度操作
  • 大麦助手damaihelper:如何配置多场次多票档的智能抢票策略
  • lsix终极指南:如何在终端中快速预览图像文件
  • K8s 上 GPU 推理服务的弹性扩缩:从指标体系、控制链路到生产落地
  • Curio性能优化秘籍:让你的异步程序运行速度提升200%
  • ABC 454 C - Straw Millionaire 题解
  • Pixie语言入门指南:快速掌握这个轻量级魔法Lisp
  • 114
  • 别再折腾路由器了!用闲置树莓派打造低成本、高可靠的WOL远程开机服务器
  • CLIP ViT-H-14镜像免配置部署教程:7860端口Web界面快速启动详解
  • Advanced Tables 社区贡献指南:如何参与项目开发与改进
  • 终极Typhoeus常见问题解决手册:从超时设置到代理配置的完整指南
  • LVGL (7) 显示驱动与缓冲区配置实战
  • 从零到一:手把手教你用EISeg标注数据并训练Mask R-CNN模型
  • 2026年3月质量好的引纸绳生产商推荐,卷钢吊具/吊具/抛缆绳/捆绑索具/链条吊具/无接头钢丝绳,引纸绳厂家哪里有卖 - 品牌推荐师
  • material-ripple未来展望:虽然项目已废弃,但技术思想依然值得学习
  • 如何快速掌握MCP协议标准化进程:Awesome-MCP-ZH最新规范解读
  • DeepBlueCLI输出格式详解:JSON、CSV、HTML等数据处理技巧
  • 告别重复劳动:用VBS脚本与定时执行专家实现键盘鼠标自动化
  • 牛客:狩影.进击
  • [嵌入式系统-259]:RT-Thread消息队列与邮箱的区别
  • Practical.CleanArchitecture中的模块化单体设计:如何实现代码的解耦与复用?
  • fb.resnet.torch图像增强技术详解:提升模型泛化能力的关键
  • 从近场到远场:RFID负载调制与反向散射调制的通信原理与应用场景解析
  • 终极指南:如何参与GildedRose-Refactoring-Kata社区贡献与翻译工作