当前位置: 首页 > news >正文

OpenAI、三星、MKBHD 竞相投资,这家初创将发布 AI 音频硬件;游戏硬件 Board 融资两千万美元:主打实体棋子与屏幕内容实时交互丨日报

 

26e96b5028ee4d251335d1a13b54edce

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Audio-Interaction:基于 400ms 分块流式架构,首个实现「感知-决策-响应」闭环的实时音频交互模型

 

94379f5902ad62c9ac84a857aa63042a

 

 

新加坡国立大学与南洋理工大学等机构联合发布了首个统一的实时音频交互模型 Audio-Interaction 及其底座框架 SOUNDFLOW。该模型打破了传统音频大语言模型(LALM)的离线问答模式,通过端到端流式处理,使模型能够在连续音频流中实时感知、自主决策并执行多任务交互。

 

  • 400ms 分块与双控制 Token 机制: 模型以 400ms 为单位步进消费音频流,通过实时预测 <silent>(沉默)或 <response>(响应)控制标记,完全基于上下文语义决策触发时机,取代了传统的物理 VAD(语音活动检测)触发。

  • StreamAudio-2M 开源流式数据集:包含 260 万个样本,总时长超 30 万小时,涵盖 7 大基础能力下的 28 个子任务。采用分层事件策划流程(场景规划-事件细化-片段落地)构建长格式音频,并辅以时频联合预处理,确保拼接边界自然平滑。

  • FIFO 队列异步低延迟推理:将音频编码器与解码器解耦为独立进程,编码器持续向时序队列追加特征,解码器根据当前状态异步进行预测,消除了推理停滞,将响应结束后恢复聆听的首帧延迟降低了 4.5 倍。

  • 通用能力无损与主动响应解锁:在通用音频理解基准 MMAU 上得分 58.15(基座 Qwen2.5-Omni-3B 为 57.81);在 CoVoST2 语音翻译上,中英和英中 BLEU 分数分别提升 15.72 和 17.04 分;在 Proactive-Sound-Bench 主动干预测试中,单/多事件流响应准确率达 61.2% 和 62.8%。

 

论文链接:

 

https://arxiv.org/pdf/2606.05121v1

 

数据集:

 

huggingface.co/datasets/zhifeixie/StreamAudio-2M

 

(@XieZhifei14110@X)

 

2、小红书 rednote-hilab 开源2b 参数的端到端文本转语音模型 dots.tts

 

b42236f8ecf0beb46af8476362bb423e

 

 

102f2c264f5e601401d1d7f8294c93c7

 

 

小红书 rednote-hilab 团队正式发布了名为 dots.tts 的 2b 参数全连续、端到端自回归文本转语音系统

 

该系统的主干网络由语义编码器、基于 Qwen2.5-1.5B-Base 初始化的大语言模型,以及基于 48 kHz AudioVAE 的自回归流匹配声学头组成,且在整个处理流程中未使用离散 token。

 

根据官方提供的数据,dots.tts 在 Seed-TTS-Eval 测试集中取得最佳平均性能,并在 24 语言的 MiniMax 多语言基准测试中获得最高平均说话人相似度,展现出开源领域最优的表现及较强的声音克隆与情感表达能力

 

目前,该项目的预训练、自我纠正对齐以及 MeanFlow 蒸馏等多个版本的检查点,连同完整的推理与微调代码,已在 GitHub 和 Hugging Face 上以 Apache 2.0 协议开源,并同步提供了在线体验 Demo。

 

https://rednote-hilab.github.io/dots.tts-demo/

 

https://huggingface.co/spaces/rednote-hilab/dots.tts

 

(@橘鸦Juya)

 

3、MMAE:首个通用音频编辑评测基准

 

既然图像编辑早有了 Nano-Banana,那属于音频的「Audio Banana」还要多久?

 

视觉编辑早已跨入「香蕉时代」(如图像的 Nano-banana 2、视频的 Gemini-Omni),但音频编辑的评测基础设施却严重断档。由于场景碎片化、传统信号指标失效,真正的下一代通用音频编辑缺乏统一卡尺。

 

全方位分类法:

 

  • 7 大模态:全面覆盖 Sound、Music、Speech 及其各类混合模态。

  • 6 大复杂度:涵盖单操作、多指令、多源、多轮迭代及多步推理。

  • 8 种操作:细分局部与全局的增、删、改、提取及属性调整。

 

核心创新:

 

  • 原子级拆解:将开放式编辑任务拆解为 17,741 个客观可验证的 Rubric-Based 细则评测(覆盖 2,000 个高保真样本)。

  • 双轴卡尺:独立评测 Instruction Following (指令遵循) 与 Consistency (上下文一致性),直面修改与保留的底层对抗。

  • 客观裁判:由高性能 MLLM(如 Qwen3-Omni)进行多轮投票解答,彻底消除评测偏见。

 

扎心发现(现在的音频模型还吃不下这根「香蕉」 🍌):

 

  • 完美执行率(EMR)全线崩塌:顶尖模型 EMR 无一例外低于 5%,复杂混合模态下直接挂 0%!

  • 高分不等于可靠:平均分高的「全能型」模型因小错不断,完美执行率(EMR)反而输给局部「专家型」模型。

  • Agent 规划越帮越忙:引入外部 Planner 虽微幅提升了指令遵循,但多轮串联导致错误和伪影疯狂累积,一致性(CR)惨遭毁灭。

 

开源链接:

 

  • 📄 Paper:

  • https://arxiv.org/abs/2606.07229

  • 🔥 Daily Paper:

  • https://huggingface.co/papers/2606.07229

  • 💻 Code:

  • https://github.com/ddlBoJack/MMAE

  • 🤖 Dataset:

  • https://huggingface.co/datasets/BoJack/MMAE

 

(@社区投稿)

02 有亮点的产品

1、Opal Electronics 获 OpenAI 领投 4000 万美元 Series B 融资:拟推出首款AI 音频硬件

 

eaa082bfdb89fc48c9f86bdd073d2019

 

 

高端网络摄像头厂商 Opal Camera 正式更名为 Opal Electronics,并宣布完成由 OpenAI 领投的 4000 万美元 Series B 融资,估值达 2.75 亿美元。该公司将战略重心全面转向 AI 消费电子,逐步停产现有摄像头产品,并计划在 3 至 4 个月内推出一款可切换底层大模型的 AI 音频硬件

 

  • 4000 万美元融资与股权结构:本轮融资于 2025 年第一季度完成,由 OpenAI 领投,Samsung、Peter Thiel、Seven Seven Six 及知名科技博主 MKBHD 等参投。OpenAI** 已成为 Opal 最大股东**,但并不拥有 Opal 的知识产权(IP)或设计权。

  • 首款 AI 音频设备支持多 LLM 切换:该产品被描述为「熟悉的产品类别」,明确不是手机替代品,尚未披露是可穿戴还是桌面设备;目前已在 Sam Altman、OpenAI 研发人员以及 Anthropic 和 xAI 的高管中进行内测。Opal 正与多家主流 AI 实验室(包括 OpenAI、Anthropic、xAI)进行接口谈判,允许用户在设备上自主切换底座模型

  • 产品线转型与中国台湾制造:Opal 现有 C1 和 Tadpole 网络摄像头(截至 2023 年累计销量超 5 万台)将在售罄后停产,未来 12 个月内公司计划推出 3 款新型消费电子产品,其硬件生产继续由中国台湾代工厂承接

  • 协同 OpenAI 环境计算(Ambient Computing)战略:该投资契合 OpenAI 的环境计算愿景(即无需屏幕、通过轻量化设备实时感知世界)。由于 OpenAI 与 Jony Ive 合作的自研智能音箱类硬件因技术与商标争议已推迟至 2027 年发布,Opal 成为 OpenAI 验证实时语音/视觉交互模式的快速外部通路

 

(@AING 硬迹、@Opal Electronics、@Wired、@testingcatalog)

 

2、微软发布 Project Solara 智能体平台和概念硬件:根据设备形态与上下文实时生成界面

 

ba3efdacb92b618d0e28d9f5d3887883

 

 

微软在 Computex 2026 上推出了基于 AOSP(Android 开源项目)的智能体硬件平台 Project Solara,并公布了 Badge 和 Desk 两款处于研发阶段的概念硬件。该平台旨在剥离传统的「以应用为中心」交互模式,通过设备端轻量化系统与 Azure 云端算力协同,由 AI 智能体根据设备形态与上下文实时生成界面(Just-in-Time UI)。

 

  • 基于 AOSP 构建 MDEP 系统底层:Project Solara 运行的轻量化操作系统名为「微软设备生态系统平台」(MDEP)。该系统避开了 Windows 架构,利用 Android 开源项目的硬件驱动与电源管理能力,集成了微软企业级技术和多智能体交互的 Shell 层。

  • 即时界面生成技术(Just-in-Time UI):系统舍弃了传统静态 App 图标平铺模式,由 Azure 云端实时驱动 AI 智能体。UI 界面根据当前上下文和硬件形态动态生成,例如在 Badge 徽章的微型屏上仅展示关键按键,而在大屏设备上则展开为完整的数据仪表盘。

  • Badge 概念机搭载定制低功耗高通芯片与 NPU:该随身徽章硬件集成 5G 与 Wi-Fi 芯片,其端侧 NPU 专门负责本地语音唤醒、实时音频流处理及基础计算机视觉计算,复杂的大模型推理则交由云端处理。

 

27e68059f8f35cb7c85d8c1197725109

 

 

  • 第一人称空间感知与多模态交互:Badge 顶部集成低功耗广角微型摄像头,可作为 AI 的视觉输入源进行第一人称视角空间感知,硬件本身支持触控、语音和手势的多模态交互

  • Desk 概念机实现跨生态协同:作为固定式桌面伴侣,Desk 硬件支持人脸识别无感解锁,并能与 Windows PC、Windows 365 云电脑协同,作为辅助屏幕呈现 AI 的实时工作状态。

 

35672249390b021e28ab681bd7973c50

 

 

(@多知)

 

3、游戏硬件初创公司 Board 获 2000 万美元融资:主打实体棋子与屏幕数字内容的无缝实时交互

 

48a04d8b7707828c29f5fdba2b1f5b13

 

 

27ccada739ae87fc4df4a84ec1323890

 

 

智能健身镜 Mirror 创始人 Brynn Putnam 创办的游戏硬件公司 Board 宣布完成** 2000 万美元融资**(累计融资 3500 万美元),由 Union Square Ventures 领投。其核心产品是一款售价 399 美元的 24 英寸木框触控屏设备,通过实体棋子感知技术实现线下桌游触感与电子游戏交互的融合。该公司正通过开放 SDK 构建开发者生态,并计划于 2026 年推出 AI 创作平台 Board Studio,允许用户利用自然语言生成桌游原型

 

  • 实体棋子感知技术:24 英寸触控显示屏搭载专有感知技术,可将采集的原始触控信号实时转化为对每枚实体棋子的种类、空间位置及移动轨迹的精准识别,实现物理实体与屏幕数字内容的高实时性交互

  • 高留存商业指标:硬件终端定价 399 美元,官方游戏库提供 13 款原创游戏(7 款内置,其余单购单价 35-45 美元),已进入全美 50 个州的数万个家庭与学校,85% 的活跃用户月均使用次数在 30 次以上。

  • SDK 生态与分发渠道:已向开发者开放 SDK,目前已有数千名创作者开发出绘画应用、剧情游戏、模拟器和教育工具;公司计划于今年 7 月上线 Community 板块,正式支持第三方内容的展示与分发。

  • AI 零代码原型生成:计划于 2026 年内上线 AI 创作平台 Board Studio,支持普通玩家通过自然语言生成桌游原型,降低游戏玩法设计与逻辑配置的技术门槛。

 

(@AING 硬迹)

03 有态度的观点

1、心理学家:把认知工作外包给 AI,会「失去对大脑的控制」

 

f27efb565079678a332503006660b09f

 

 

据 MIT Technology Review 报道,加州大学欧文分校心理学家 Gloria Mark 在 SXSW London 接受采访时讨论了数字技术和 AI 对注意力的影响。她指出,人们已经在很大程度上「失去对注意力的控制」

 

Mark 的长期实验显示,2003 年用户在切换到其他任务前平均能专注约 2 分半钟;2012 年降至约 75 秒;2014 年至 2020 年的研究中进一步降到平均 47 秒。

 

她还在实验中看到,注意力快速切换与压力上升存在直接相关。**她对 AI 聊天机器人更担心的部分,是「深度处理」被外包。**Mark 表示,当人主动评估、总结和理解信息时,会更可能学习、理解和记住它;

 

如果把写作、总结、评价交给 ChatGPT、Claude 或 Gemini,人就把认知工作交给了 AI。她还把问题延伸到合成陪伴产品,认为顺从型机器人关系会削弱人维持真实关系所需的情绪能力

 

建议人们重新思考与 AI 技术的关系:读完整本书而非只看摘要;能当面见朋友时尽量当面;在熟悉环境里减少对 GPS 的依赖。她认为,努力本身会带来更深层的满足感,这些例子也是对注意力、记忆和情绪能力的重新训练。

 

( @APPSO)

 

image

 

1fa604f69347d17ddc8c60c28e197331

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

f5500ac549d8369c2e0f128b423c0540

 

 

作者提示: 个人观点,仅供参考

http://www.jsqmd.com/news/983105/

相关文章:

  • CH55xduino终极指南:快速上手低成本USB微控制器开发
  • Mac微信防撤回终极指南:3分钟永久保留重要消息
  • i.MX RT1050引脚配置全解析:从BGA封装到硬件设计实战
  • 5分钟快速上手:免费开源视频修复神器untrunc终极指南
  • 别再只会rosbag record -a了!ROS数据录制与回放的5个高效场景与避坑指南
  • FS6271 0.25元,OVP阈值16V防止反馈电阻开路损坏
  • 技术视角:VideoDownloadHelper - Chrome浏览器视频下载扩展的架构设计与实现原理
  • 并发编程与线程安全:从锁机制到无锁编程的面试全解
  • 计算机小程序毕设实战-基于spring boot的校园二手交易平台系统小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • XUnity Auto Translator:让外语游戏无障碍畅玩的终极翻译解决方案
  • i.MX 7ULP BGA封装引脚与电源设计实战指南
  • 储能电站网络如何做到“零中断”?基于映翰通ISM5010工业交换机的环网冗余方案实践
  • 终极B站下载解决方案:BiliTools跨平台工具箱实战手册
  • Windows 10终极清理指南:如何高效彻底卸载OneDrive提升系统性能
  • 番茄小说下载器:5种格式永久保存,打造你的私人数字图书馆
  • 告别书签混乱:Neat Bookmarks帮你打造高效浏览器工作流
  • Python数据可视化:Matplotlib与Seaborn实战指南
  • i.MX 7ULP时钟与电气设计:从原理到实践的硬件开发避坑指南
  • 无人机飞行数据分析终极指南:Flight Review工具完整教程
  • 从芯片数据手册修订历史看硬件设计优化:电源、时序与接口配置实战解析
  • 广州国央企招聘求职难?良策猎聘如何一站式赋能?
  • PyFluent架构设计与工程实践:Python驱动的CFD自动化解决方案
  • 从5000元到5万元:不同预算下智能电话机器人品牌推荐与成本分析
  • 如何构建专业级技能自动化系统:GSE插件完整指南
  • AI写专著技巧大公开:利用AI工具,快速产出20万字专著!
  • 抖音无水印下载终极指南:免费一键批量下载工具完整教程
  • 让Mac Finder成为你的私人影院:QLVideo如何解锁50+视频格式的即时预览
  • 如何在Qt应用中快速构建高性能PDF查看器:QPDF深度实践指南
  • 2026梅州市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐
  • 三步搞定Windows 10 OneDrive终极卸载秘籍,彻底释放系统性能