当前位置: 首页 > news >正文

声纹验证身份场景的模型(FunASR中的cam++)应用及概念;FunASR输出的字段解析;包含权限验证的语音转文字场景;

声纹验证身份场景的模型(FunASR中的cam++)应用及概念

需求希望以后都能录入一个人的声音,根据声音进行识别人,达到根据声纹判断是否有权限的功能

声音特征编码

每个人的声音会被压缩成一个声纹向量

声音特征编码其实就是192维或256维的高维向量
它不能直接帮判断:是不是张三、是否通过验证,这些需要通过算法算出相似度。

声音特征验证流程

获取到目标声纹向量,再与数据库权限人的声纹向量做匹配,这就是一整套声纹验证流程

  1. 先注册权限人的声音特征编码
    emb1 = model.generate(input="zhangsan.wav")[0]["spk_embedding"]
  2. 目标的声音特征编码
    emb2 = model.generate(input="test.wav")[0]["spk_embedding"]
  3. 再通过算法验证计算相似度
    score = F.cosine_similarity(emb1, emb2)
    score大于某个自定义阈值就能认为是同一个人,这就是简单的声纹验证流程。

加强声音特征验证的可靠性

情绪变化、感冒、噪声、说话内容不同、都会影响 embedding。

理论上可以只使用一段声音的特征编码,但工程上不建议只用一段

  1. 权限人注册阶段
    建议每个人录 5~10 段语音、每段 3~5 秒,然后对单个权限的特征向量取平均。
  2. 验证时的判断
    比对各个权限人哪个最大 + 超过阈值就能判断判定是谁在说话。

FunASR输出的字段解析

在这个FunASR框架中,我使用了vad模型、punc模型(标点符号)和spk模型(分割说话人)

FunASR的输出主要分为以下字段:

  1. text:整体完整文本
  2. timestamp:逐词时间戳,单位是毫秒
  3. sentence_info:句子级别信息(重点)

sentence_info句子级别信息中的字段

  1. text:该句文本
  2. start / end:句子时间范围
  3. spk:说话人编号

在这个模型组合里面没有实时对人进行验证,所有这里的说话人是随意取的spk0、spk1等等

包含权限验证的语音转文字场景

要实现语音对设备的控制,就要对声纹进行权限验证

离线整段音频权限验证架构

整段音频模式的整体架构如下:

  1. 输入整段音频
  2. 声纹验证(CAM++)
  3. ASR 转文字
  4. 权限判断
  5. 执行 / 拒绝(执行这一块后面需要展开)

先做声纹验证,再做 ASR,可以节省算力,也更安全

http://www.jsqmd.com/news/428261/

相关文章:

  • 2026年3月北京单位租车公司推荐,企业单位长期用车合作 - 品牌鉴赏师
  • KJ3212X1-BA1模拟输入模块
  • 电力电子元件
  • 为什么 Spring 强烈推荐你用 singleton
  • 2026年可靠的不锈钢封头,碳钢封头,蝶形封头厂家优质品牌推荐 - 品牌鉴赏师
  • 2026年靠谱的绿篱修剪机、割草机供应商采购指南选哪家 - 深度智识库
  • 在本机A中执行expect脚本:ssh到B,在B机器上从A机器scp文件到B
  • 别再花钱买虚拟机了!这款开源神器,让你在电脑里“无限套娃”
  • 分析代理记账公司服务,数智致合能满足企业全生命周期需求吗? - 工业设备
  • 智能节电降耗全场景解决方案:从车库到工厂的能效革命 - 包罗万闻
  • 2026全网最新的软件测试面试题(接口测试篇)
  • 2026年青州专业的山东选金机械,全自动选金机械,沙金选金机械厂家行业热门榜单 - 品牌鉴赏师
  • 2005 NIST Speaker Recognition Evaluation Test Data数据集介绍,官网编号LDC2011S04
  • 探寻2026年地道螺蛳粉加盟,正宗加盟店排名前十的品牌有哪些 - mypinpai
  • 零代码提取建筑信息!Bigemap一键获取建筑高度/面积/周长
  • Biotin生物素标记抗体比较好的供应商推荐哪家? - 品牌推荐大师
  • 2008 NIST Speaker Recognition Evaluation Training Set Part 1数据集介绍,官网编号LDC2011S05
  • 盒马鲜生购物卡回收最新攻略 - 团团收购物卡回收
  • windows安装配置openclaw
  • 2005 NIST Speaker Recognition Evaluation Training Data数据集介绍,官网编号LDC2011S01
  • 2026年青州可靠的选矿淘金设备,移动淘金设备,滚筒淘金设备厂家行业精选名录 - 品牌鉴赏师
  • 2026 气流粉碎机厂家综合榜单|新型气流粉碎机、小型气流粉碎机、实验室气流磨、锂电池气流磨、气体保护气流磨全机型介绍 - 品牌企业推荐师(官方)
  • 2026年3月模具专用干冰清洗机厂家推荐,模具清洗不伤基材 - 品牌鉴赏师
  • 2006 NIST Spoken Term Detection Development Set数据集介绍,官网编号LDC2011S02
  • 2026年3月上海升学辅导机构权威推荐,教学体系完善优选 - 品牌鉴赏师
  • 2006 NIST Spoken Term Detection Evaluation Set数据集介绍,官网编号LDC2011S03
  • 2026年外贸网站谷歌独立站搭建/谷歌独立站定制公司/服务商深度评测推荐:深圳昊客网络 - 深圳昊客网络
  • OBS美颜插件使用教程:OBS美颜滤镜插件下载,OBS怎么美颜滤镜?
  • 2026年3月智能干冰机喷射系统厂家推荐,实用选购攻略与参考 - 品牌鉴赏师
  • 永辉超市卡回收指南:回收平台推荐与用户真实评价 - 团团收购物卡回收