当前位置: 首页 > news >正文

Zyphra 开源 8B MoE 实时语音合成模型,600 万小时训练;MuteVox 消音口罩:AI+物理双降噪,耳语级语音识别丨日报

 

da363d3c8ee296115c8c71e6451fb465

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Zyphra 开源 ZONOS2:8B 参数 MoE 架构实时语音合成模型,吞吐量提升 4 倍

 

f38360ef42591f4a6ebb928b969d4722

 

 

AI 研发公司 Zyphra 开源了实时文本转语音模型 ZONOS2,采用 Apache 2.0 协议,将稀疏混合专家架构引入开源语音合成领域。该模型拥有 80 亿总参数和 9 亿激活参数,在模型规模相比前代扩大 5 倍的同时实现了 4 倍的实时吞吐量提升,并支持高保真零样本声音克隆。

 

  • MoE 架构与无 CFG 设计:采用基于 MoE++ 的稀疏混合专家架构,通过移除对无分类器指导的依赖,在总参数量从 1.6B 提升至 8B 的情况下,将实时吞吐量提高了 4 倍。

  • 无音素化 UTF-8 字节分词:文本输入直接表示为原始 UTF-8 字节,彻底移除了传统的显式音素化步骤,不仅原生支持跨语言混合,还显著提升了中、日、韩等复杂非欧洲语言的语音合成稳定性。

  • 44.1 kHz 高保真输出与双模克隆:模型自回归预测 DAC 标记,并利用延迟模式架构实现标记的并行高效生成;配备带宽提升 20 倍的 ECAPA-TDNN 说话人嵌入模型,并提供「稳定模式」(过滤噪音,输出干净音频)与「表现力模式」(完全还原克隆源的背景噪音和语音细节)双版本。

  • 600 万小时音频训练与三阶段调度:训练数据集规模从 20 万小时扩大至 600 万小时;采用全新的三阶段训练策略(宽泛过滤预训练、收紧转写一致性的中期训练、引入控制变量的退火训练),在保留数据多样性的同时大幅减少语音幻觉。

  • 全新评测基准 ZTTS1-Eval:针对传统基准评测集单一、评估模型陈旧的缺陷,推出包含 FLEURS-R(9 种语言干净音频)和 VoxBlink2(17 种语言野生音频)的全新多语言基准,并采用 Qwen3-ASR、ReDimNet 及 TTSDS 声学特征指标进行多维度评估。

 

(@zyphra)

 

2、LiveBand 推出本地实时 AI 伴奏系统:采用因果音频自编码器与 KV 缓存,实现零感知延迟

 

研究人员推出实时 AI 伴奏系统 LiveBand,支持在 MacBook 本地运行并可同时生成多种乐器伴奏。该系统通过前瞻性预测机制为硬件留出推理时间缓冲区,并结合自定义因果自编码器与单步 KV 缓存技术,消除了传统生成式音频模型的延迟瓶颈,实现了无感知延迟的实时人机协同演奏

 

  • 前瞻性时间缓冲机制:系统在  时刻接收演奏输入时,利用时刻的历史数据预测并生成  时刻的伴奏。这种前瞻性预测为本地硬件执行推理争取了物理时间缓冲区,从而在回放时实现零感知延迟。

  • 对抗性目标与无自身反馈设计:为解决预测偏差导致的误差累积和漂移,系统采用对抗性目标评估生成序列的全局真实性。在训练和推理中,模型不使用自身的历史预测作为输入,仅引入噪声,且在单次并行前向传播中生成完整序列,避免了传统教师强制训练方法在面对非预期输入时的混淆。

  • 自研因果音频自编码器:系统构建了无需未来上下文的自定义因果音频自编码器,用于实时音频流的高效编解码。

  • 单步 KV 缓存推理:放弃了多步迭代的扩散循环,直接通过单步 KV 缓存处理潜变量,极大提升了本地实时推理的速度与鲁棒性。

  • 轻量化训练与高自由度交互:该模型完全在单张 GPU 上从头训练完成,支持多乐器并发生成,并允许将系统输出重新作为输入喂回,实现系统与自身的闭环自激演奏。

 

https://arxiv.org/abs/2606.03803

 

( @marco_ppasini@X)

02 有亮点的产品

1、默造科技推出 MuteVox S1 智能消音口罩:融合物理消音与 AI 降噪,支持耳语级语音识别

 

d3ee886f8028f9c17a20664878331e84

 

16c9719981d5c797b3e7a8038d795dc1

 

  

深圳默造科技推出智能消音口罩 MuteVox S1,通过物理隔音结构与 AI 降噪算法相结合,实现公共场所下的私密语音交互。该产品主打「耳语级对话」与静音收音,旨在解决开放空间人声隐私泄露与环境噪音干扰,目前已开启众筹,定价** 499 **元。

 

  • 物理与 AI 双重降噪:采用物理隔音结构吸收并阻挡声波外传,将输出人声压制在图书馆级低音量范围内;配合 AI 语音识别算法,支持「耳语级」甚至「默念式」发声的精准提取与背景杂音剥离

  • 分离式结构设计:针对面罩类设备的日常清洁与卫生痛点,MuteVox S1 采用内外层分离设计,外层布料支持独立拆卸与更换。

  • 竞品 Wearphone 引入主动降噪与订阅制:日本初创公司 Verne Technologies 的同类产品 Wearphone 采用物理与主动降噪双重技术,可降低人声 10 至 20 分贝,并计划推出每月 19 美元的 AI 增强识别增值订阅服务

  • 差异化定价与应用定位:MuteVox S1 众筹价 499 元,侧重于开放空间下的双向语音通话隐私保护;Wearphone 定价 500 美元(早鸟价 450 美元),侧重于公共场所下与 ChatGPT 等 AI 智能体的私密对话。

 

(@多知)

 

2、钉钉发布首款医生 AI 硬件 DingTalk A1 豆蔻医生版:内置 6nm 音频芯片与 122B/32B 医疗大模型

 

a81f6bb0c88f77ccfea46693c9bf00bd

 

 

钉钉正式推出专为医生群体定制的 AI 硬件 DingTalk A1 豆蔻医生版,售价 999 元。该设备深度融合 122B/32B 参数规模的豆蔻医疗大模型及超级助理,支持语音病历转写、文献检索与临床决策辅助。目前,其搭载的医疗大模型已在国内超过 1000 家医疗机构投入规模化应用。

 

  • 122B/32B 医疗大模型与 4000 万文献训练:搭载基于循证医学构建的豆蔻医疗大模型,训练集覆盖全球 4000 万篇权威医学文献。该模型为国内首个通过妇科正高职称考试的垂直大模型,妇科问诊准确率超过 90%。

  • 6nm 音频芯片与 5+1 麦克风阵列:内置恒玄科技 6nm 制程 BES2800 AI 音频处理器,配备 5 颗全向麦克风与 1 颗骨传导麦克风,支持** 8 米范围远场拾音与智能发言人识别**。设备厚度 3.8mm,重 40.8g,支持 60 天待机与 45 小时连续录音

  • 搭载 Fun-ASR 大模型,幻觉率降至 10.7%:采用** Fun-ASR 语音识别大模型**,引入医学术语热词动态注入技术,将语音识别幻觉率从 78.5% 降至 10.7%,支持 21 种语言同声传译

  • 基于 PICOS 框架的临床决策辅助:支持门诊问诊、住院查房、多学科会诊及学术会议场景的语音转写与结构化病历自动生成;基于国际标准 PICOS 循证框架解析病历,生成具备可溯源证据链的临床决策报告。

  • 三端加密与隐私大模型调用:针对医疗合规要求,支持录音文件在设备端、传输端和云端的三端加密,企业可通过专属数据存储统一管理设备与文件,支持在隐私环境下安全调用大模型。

 

(@HC3i 中数新医)

 

3、奇点灵智发布 Duoki OS:基于智能体架构,实现儿童硬件端本地 Vibe Coding 与自进化

 

4d74c7fdec28be3c38d7c66d56cb7d1f

 

 

奇点灵智为其多奇 AI 机器人推出全新操作系统 Duoki OS,引入由多智能体协同驱动的本地自编程(Vibe Coding)与自进化机制。该系统允许无技术背景的家长通过自然语言在 1-2 分钟内为硬件现场生成、部署个性化轻应用,并实现物理传感器与软件能力的解耦,推动儿童硬件从「出厂即固化」向自主进化智能体演进

 

  • 多智能体分工矩阵驱动:前端部署「伙伴智能体」与「教育规划智能体」负责趣味互动与学习路径规划;后台部署由「PM 智能体」与「Coding 智能体」组成的研发队列,负责将用户的模糊自然语言指令实时编译为机器代码。

  • 物理传感器乐高化调度:打破传统硬件出厂程序定死的限制,实现软硬件接口解耦。系统可根据生成的应用场景,自主调度并激活胸口触屏、摄像头、麦克风、陀螺仪或物理按键等硬件模组。

  • Skills.md 场景剧本约束:内置结构化场景交互规则文档库,提供自编程过程中的设计原则与边界控制,确保 AI 现场生成的轻应用符合儿童语言习惯、低幼互动特征与安全红线。

  • 「日读夜思」的自进化闭环:机器人白天收集并反思与儿童的交互数据,夜间基于反思逻辑自动生成定制化的新游戏或知识任务,清晨经家长手机端审核后一键部署至硬件端。

 

(@多知)

 

4、Equal AI 推出 AI 电话代接助理:自动应答过滤骚扰与快递电话,支持 10+ 语种混合识别

 

22d39453a6b444913fde28a6027b7914

 

 

d77a23d4a34646158d299d0304b73e9b

 

 

印度 AI 通话助手初创公司 Equal AI 宣布完成 3000 万美元 B 轮融资,累计融资额达 4200 万美元。该公司开发的安卓端 AI 通话助理通过代接来电、获取来电意图、生成转录摘要并提供快捷语音回复,帮助用户拦截垃圾来电和对接物流,其月活跃用户已突破 100 万。

 

  • 自研多模型编排层:系统底层融合了语音识别、ASR 及语音合成模型,通过自研的编排层进行调用与协同,实现高能效的语音通话流实时处理。

  • 支持超 10 种本地语言与语码混合:针对印度用户多语言混杂的交际习惯,模型专门针对语码混合(混合使用地方语言与英语)场景进行了训练,目前支持超过 10 种地方语言的识别与生成

  • 双向代理交互与转录:AI 助手不仅能将来电转换为文字,还能将用户输入的自定义文本或预设选项(如「交给邻居」)通过语音合成朗读给来电者,并同步在后台记录通话、转录文本及生成结构化摘要。

  • 向主动智能体演进:产品规划从被动过滤升级为主动执行,未来将在用户授权下主动向送货员发送地址,或自主拨打电话进行预约。

  • 分阶段挂钩的 B 轮融资架构:本轮 3000 万美元融资由 Prosus Ventures 和 Tomales Bay Capital 领投,采用分为三个阶段的特殊估值结构,其估值释放与初创公司是否达成预设的技术和业务里程碑直接挂钩。

 

(@TechCrunch)

03 有态度的观点

1、苹果高管:Siri AI 是实用工具,不是情感伴侣

 

132b86ec670ce375b0e7418d4c69eee8

 

 

苹果软件工程高级副总裁 Craig Federighi 与营销主管 Greg Joswiak 在 WWDC 2026 期间接受了《Mostly Human》采访,深入探讨了苹果对 AI 的功能定位、隐私策略及儿童安全等议题。

 

在前天举行的采访中,Federighi 明确了 Siri 的工具属性,并强调其设计初衷并非 AI 伴侣。针对市面上部分 AI 产品侧重于通过建立情感连接来提升参与度的现状,Federighi 表示:

 

现有许多聊天机器人很大程度上专注于参与度,甚至带有某种「谄媚」色彩。它们想方设法吸引你,可能会鼓励你透露个人信息,并以此为基础建立某种联系。我们对此持完全相反的观点。在我们的设计中,Siri 会明确表示:「听着,那不是我的职责。我是来帮你的,我可以帮你完成任务,帮你了解世界。」但如果你试图把 Siri 当作浪漫伴侣,Siri 是不会配合的。

 

Joswiak 补充提到,苹果并不追求「为了 AI 而做 AI」,而是致力于将 AI 技术无感地融入现有产品中。他表示,苹果希望技术能够「消失」,让用户专注于内容本身,且不希望 iPhone 用户必须成为「提示词专家」才能使用 AI 功能。在隐私保护方面,Federighi 强调了苹果「隐私先行」的原则。

 

他指出,用户数据保留在 iPhone 本地并由用户完全控制,苹果公司无法获取这些信息。他认为,这种将本地知识与公司获取权限彻底隔离的做法,是苹果区别于行业内其他竞争对手的关键优势。

 

(@APPSO)

 

image

 

 

19e5c96dbf336adc6848fc29dcb0dfe8

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

2e0d502b064b6da38696976d6038fb16

 

 

作者提示: 个人观点,仅供参考

http://www.jsqmd.com/news/1025683/

相关文章:

  • D2DX技术解析:让经典暗黑2在现代PC重获新生的架构设计
  • Kinetis MCU USB开发全解析:从基础协议到硬件设计与驱动实战
  • 2026 海南自贸港创业注册避坑指南|工商登记资质办理靠谱财税机构甄选推荐 - 资讯纵览
  • MediaCrawler全平台数据采集实战指南:从入门到企业级应用
  • 2026值得信赖的热像仪厂家怎么选?主流榜单指南 - 资讯纵览
  • 东营漏水检测维修权威推荐:卫生间-厨房-阳台-屋顶天花板漏水维修:靠谱防水补漏公司团队TOP5推荐(2026最新深度调研实测榜单).txt - 即刻修防水
  • 终极解决方案:如何使用VisualCppRedist AIO一站式解决Windows C++运行库依赖问题
  • DINOv2自监督视觉模型:原理、应用与实战指南
  • 装修前必看!西安业主的血泪经验:报价单上这5个“隐藏项”最烧钱 - 资讯纵览
  • 应对动态演示文稿生成挑战:PHPPresentation的PHP自动化解决方案
  • 2026实测:全栈大模型GEO服务商横向对比推荐 - 新闻快传
  • P5556 圣剑护符
  • FunClip:如何用AI语音识别技术将视频剪辑效率提升10倍
  • 《2026 无锡公司股权转让代办与税务筹划行业发展趋势白皮书正式发布》 - 资讯纵览
  • 2026北京海淀区注册公司怎么选?三大主流财税机构实测排名 - 小柏云
  • AI搜索优化正规公司有哪些 大模型收录规则行业常识科普内容分享 - 资讯纵览
  • 上海风貌别墅装修怕踩坑?2026年6月五维评估法帮你锁定7家靠谱品牌 - 资讯纵览
  • 2026年少儿编程哪家不踩雷:课程体系、AI能力与赛考支持横向对比 - 科技焦点
  • 大麦网自动抢票脚本终极指南:3分钟部署,10倍成功率提升
  • 东莞漏水检测维修权威推荐:卫生间-厨房-阳台-屋顶天花板漏水维修:靠谱防水补漏公司团队TOP5推荐(2026最新深度调研实测榜单).txt - 即刻修防水
  • SY_AICC/GPT2-xl高级应用:创意写作、代码补全与聊天机器人开发实例
  • 2026年广东石英砂厂家英德下太镇硅砂产业提质升级标杆:鸿发石英砂粉厂深耕多品类石英砂加工,赋能大湾区铸造、玻璃、环保建材全产业链 - 资讯纵览
  • 武汉空调维修清洗加氟找修乐家,本地空调维修,靠谱! - 资讯纵览
  • 明星合作服务商怎么选?五大机构深度对比评测,助你精准匹配品牌需求 - GrowthUME
  • 2026年,密封不严问题凸显,永康防盗门整改行动拉开帷幕! - GrowthUME
  • 线上寄件专属低价通道已开通!大小货手机一键下单,上门取件直接享优惠 - 时讯资讯
  • W21万高电机选购指南:靠谱采购进货渠道怎么选 - 资讯纵览
  • OpenAI Plugins技能开发:如何创建自定义技能的完整教程
  • 儿童裙子品牌怎么选?戴维贝拉为什么是家长首选专业防晒品牌 - 资讯纵览
  • MQX RTOS任务调试与以太网桥接:基于ColdFire Tower系统的嵌入式开发实践