当前位置: 首页 > news >正文

GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

GLM-ASR 是智谱AI开源的一个语音识别模型,虽然体积小,只有1.5B的参数量,但识别速度快、准确率高,在中文和方言识别上表现非常突出,尤其擅长处理低音量、嘈杂环境下的语音,比很多同类模型更稳健。

GLM-ASR 支持 17 种语言,包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持,在中文和地方方言,比如粤语场景下远超老牌语音识别模型 Whisper。

今天分享的 GLM-ASR 一键包基于 智谱AI 最新开源的 GLM-ASR-Nano-2512 模型打包制作,WebUI包括单次转写和批量转写两个模块,支持音频/视频一键转写, 同时支持生成txt和srt字幕文件,方便二次创作。因视频转写效率不如直接音频转写,故新增视频转音频功能,如果是视频文件,建议先将视频转换为音频,再进行转写操作。

下载地址:点此下载



主要特点

开源且轻量:参数量 1.5B,相比一些超大模型运行速度更快,同时保持高精度。
方言支持强:不仅能识别普通话和英语,还特别优化了粤语等方言,解决了很多语音识别模型在方言上的短板。除标准普通话和英语外,模型针对粤语及其他方言进行了深度优化。对于做港剧字幕组、粤语客服质检的小伙伴来说,有效填补了方言识别领域的空白。
低音量识别能力:专门训练过“轻声/低音量”场景,即使说话很轻也能准确转写。它专门针对 "低语/轻声"场景进行训练,能够捕捉并准确转录传统模型难以识别的极低音量音频。以后开会偷偷录音(误),也不怕听不清了。
高性能:在中文语音识别的常见测试集(如 Wenet Meeting、Aishell-1)上,平均错误率只有 4.10%,优于 OpenAI Whisper V3 等模型。
多语言支持:支持 17 种语言,常见语种的识别错误率都在可用范围内(WER ≤ 20%)。包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持



应用领域

会议记录:在多人会议、嘈杂环境下依然能准确转写,适合企业会议纪要。
客服与呼叫中心:支持方言和低音量识别,能更好理解不同客户的语音输入。
教育与学习:帮助学生或研究者快速转写课堂、讲座内容。
媒体与字幕:为视频、播客自动生成字幕,尤其适合中文和粤语内容。
智能设备:在语音助手、智能家居中提升识别准确率,尤其在安静或嘈杂场景下。



使用教程:(建议N卡,显存4G起,支持50系显卡)

支持CPU和CUDA两种运行模式,CPU较慢,有条件建议使用CUDA(独立显卡)模式

支持音频、视频转换,支持批量音频转换。上传需要转写的音频/视频文件,点 开始识别 即可。
注意:视频识别不如音频识别准确率高,建议使用音频转写。视频文件可先用WebUI里的视频转音频,转换后音频文件保存在audio_temp目录,再使用转换后的音频转写。

http://www.jsqmd.com/news/93870/

相关文章:

  • 如何更改ip地址 获取静态ip
  • 模电复习-BJT章
  • transformer模型详解:以Qwen3-32B为例剖析架构设计
  • 油管创作者收入解析,如何突破万元大关
  • Qwen3-VL-30B视频时序感知技术揭秘:自动驾驶场景下的落地路径
  • 接口测试到接口自动化入门到高级,学习路线指南...
  • 无代码解决方案:企业数字化转型的轻量化路径
  • LobeChat主题定制教程:打造品牌专属的AI交互界面
  • 文献综述写作期末指南:结构框架、选题技巧与常见问题解析
  • AutoGPT如何设置优先级?任务调度机制解读
  • 力扣刷题之102、二叉树的层序遍历
  • LobeChat本地部署教程:保护数据隐私的同时享受AI乐趣
  • 期末文献研究论文的撰写规范与实践路径探析
  • DevC++也能接入AI?Seed-Coder-8B-Base让老IDE焕发新生
  • Markdown+Jupyter Notebook:打造优雅的AI实验日志
  • 好用的电动平车哪个公司好
  • 入侵检测体系升级指南:AWS 防火墙平台需具备的关键安全能力框架 - 品牌排行榜
  • ollama下载支持Qwen3-32B吗?最新兼容性测试结果
  • 深入 InnoDB 内核:Buffer Pool 中的 Flush List 到底解决了什么问题?
  • 手把手教你实现智能体React框架:大模型开发进阶指南(强烈推荐收藏)
  • 全电动平板车服务商
  • 企业内部智能客服新选择:基于LobeChat的定制化解决方案
  • AI 写论文终极 PK 结果出炉!虎贲等考 AI 凭实力成 2025 届毕业生的 “隐形导师”!
  • 防御网络攻击:AWS 引领的云安全平台关键能力框架与选型指南 - 品牌排行榜
  • 产品经理必看!掌握大模型的6大优势,建议收藏
  • InnoDB 脏页到底什么时候刷盘?一文彻底讲透 Flush List 与 Checkpoint 机制
  • GitHub上最受欢迎的PyTorch相关开源项目Top10
  • linux 系统:在现有 LAMP 环境下部署 ZABBIX 6.0 LTS
  • LobeChat能否集成代码解释器?实现AI编程辅助功能
  • 【Java毕设全套源码+文档】基于Java旅游民宿信息管理系统的设计与实现(丰富项目+远程调试+讲解+定制)