当前位置：首页 > news >正文

Claude Code 发布蓝牙 API，允许第三方硬件监听特定事件；语音识别疲劳、抑郁和 2 型糖尿病，Speechmatics 发布生物标记平台丨日报

news 2026/6/22 19:33:19

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、腾讯发布并开源混元世界模型 HY-World 2.0

腾讯混元团队日前正式发布并开源了多模态世界模型 HY-World 2.0。该模型支持通过文本、图像和视频等多模态输入，自动生成、重建并模拟可交互的完整 3D 世界。

与以往仅生成像素级视频的模型不同，HY-World 2.0 直接输出 Mesh、3DGS 和点云等真正可编辑且持久化的 3D 资产，能够无缝导入 Unity、Unreal Engine 等主流游戏引擎进行二次开发。

其不仅原生具备 3D 一致性，还内置了支持物理碰撞和物理感知移动的交互式角色探索模式。

目前，官方已在 GitHub 和 Hugging Face 等平台开源了技术报告、WorldMirror 2.0 的推理代码与模型权重，其余核心模块代码及权重也即将陆续释出。

https://github.com/Tencent-Hunyuan/HY-World-2.0

https://huggingface.co/tencent/HY-World-2.0

（@橘鸦 Juya）

2、OpenAI 发布 Codex 更新：集成 gpt-image-1.5，支持视觉驱动的背景计算机操控

OpenAI 宣布 Codex 完成多模态能力重构，从单一的代码文本生成演进为「视觉-操作」闭环系统。新版本通过集成 gpt-image-1.5 模型与计算机操控（Computer Use）技术，使智能体能够感知 UI 像素、自主跨应用执行任务，并直接在开发工作流中生成与迭代视觉资产。

像素级背景计算机操控（Background Computer Use）：基于多模态视觉感知，Codex 能够识别屏幕元素并驱动独立光标进行点击与输入。支持在 macOS 背景环境中多智能体并行操作，无需 API 即可通过视觉反馈完成前端调试、应用测试及复杂 UI 交互。

gpt-image-1.5 原生集成：Codex 现支持在代码编辑器内直接调用图像模型。开发者可结合代码逻辑与屏幕截图，生成并迭代产品原型图、前端视觉组件及游戏素材，实现从代码到视觉资产的同环境转换。

多模态交互浏览器与富媒体预览：内置浏览器支持开发者在页面直接标注（commenting）以提供视觉指令；侧边栏新增对 PDF、电子表格、幻灯片及文档的深度解析与预览，增强了非文本类工程文档的上下文提取能力。

长效记忆（Memory）与多模态自动化：支持跨会话保留视觉偏好与操作修正记录。智能体可根据 Google Docs 评论、Slack 消息及 Notion 截图的多维上下文，自动规划并执行跨度数周的长周期开发任务。

MCP 插件体系扩展：新增 90 多个插件支持，通过模型上下文协议（MCP）整合 Atlassian Rovo、CircleCI、GitLab 等工具，使智能体能够在视觉操作的同时，通过标准化接口获取深度技术上下文。

参考链接：

https://openai.com/index/codex-for-almost-everything/

( @OpenAI)

3、OpenMOSS 开源音频统一理解模型 MOSS-Audio

OpenMOSS 团队正式开源 MOSS-Audio 音频统一理解模型。该模型通过模块化架构整合了语音识别、环境声感知、音乐分析及复杂音频推理能力，实现了极高精度的词级/句级时间戳定位，在多项音频理解基准测试中以 4B/8B 参数规模超越了更大尺寸的开源及闭源模型。

DeepStack 跨层特征注入机制：不同于传统仅提取编码器顶层特征的方案，MOSS-Audio 选取编码器早期和中间层特征，通过独立投影注入 LLM 前几层。该架构有效保留了韵律、音色、瞬态事件及局部时频结构等底层声学细节。
显式时间感知表示（Time Marker）：在预训练阶段按固定时间间隔插入显式时间标记，使模型在统一文本生成框架下具备细粒度时间定位能力。其在 AISHELL-1 上的 AAS 指标（35.77）相比 Qwen3-Omni 和 Gemini-3.1-Pro 实现了数量级领先。
13 维度细粒度语音描述能力：支持对性别、年龄、口音、音高、音量、语速、音色质感、情绪及个性特征等 13 个维度进行结构化分析，MOSS-Audio-8B-Instruct 在综合评分中位列 SOTA。

思维链（CoT）与推理增强：MOSS-Audio-8B-Thinking 版本通过 CoT 训练与强化学习，支持对复杂音频内容进行多跳推理，其通用音频理解平均准确率达到 71.08，超越了部分 30B+ 规模的开源模型。

通用音频描述 Demo:

<think>

音档内容是一位男性说话者，语气带有自信和些许夸耀。说话者透过一连串反问句来强调自己的经历与能力，句末常带有上扬的语调，例如「你干过吗？」. 语速整体中等偏快，尤其在列举成就时更为明显。内容围绕说话者声称自己完成了许多令人惊叹或不寻常的事情，例如跳过楼、与坦克近距离接触（被坦克压过）、野外生存、吃遍各种蚯蚓、开飞机、坦克漂移，以及完成两项电影史上的首次活动（《战狼 1》、《战狼 2》）。说话者在[00:08]处有轻微的口腔音。最后以「我觉得这是我最大的成就」作结，语气显得相当肯定。整体语篇结构是列举式陈述，透过对比来突显自身与众不同之处。音档中没有明显的背景噪音或其他说话者。说话者在[00:00]-[00:06]、[00:07]-[00:13]、[00:15]-[00:20]及[00:23]-[00:29]进行了多次提问和陈述，其间穿插了短暂停顿，如[00:06]和[00:13]的停顿。这些停顿有助于听者消化信息，并在说话者转换话题或强调下一点之前制造悬念。例如，在[00:25]提到「中国电影人之前没人干的事儿」时，语气略带自豪。最后的陈述语气坚定。

</think>

说话者以一连串充满自信的反问句开场，列举了自己多项惊人的个人经历，包括完成电影史上的重要拍摄以及多项常人难以企及的举动。其语气坚定，句末语调上扬，强调个人成就的独特性，并在结尾处以肯定的语气总结，认为这些是他的最大成就。

GitHub:

https://github.com/OpenMOSS/MOSS-Audio

HuggingFace:

https://huggingface.co/collections/OpenMOSS-Team/moss-audio

（@模思智能）

02 有亮点的产品

1、Claude 桌面端发布 Bluetooth API：支持硬件设备实时监听智能体状态

Anthropic 在 Claude 桌面应用（Cowork 与 Code 模式）中上线原生 Bluetooth API。该接口允许开发者构建外部硬件设备，通过蓝牙实时同步 Claude 的内部运行状态，实现 LLM 软件与物理世界的异步交互。

支持跨模式硬件联动：Bluetooth API 覆盖 Claude 桌面端的 Cowork 与 Code 核心模式，允许第三方硬件作为 Claude 的物理外设运行。
状态触发机制：硬件设备可实时监听 Claude 的特定事件，例如当智能体（agent）因安全策略挂起并「等待用户操作权限」时，触发物理信号。
面向 Maker 生态的端到端交互：开发者可利用该 API 开发专用通知器、物理控制台或嵌入式交互设备（如桌面宠物），通过物理震动、光效或音频解决用户在多任务办公时错过 AI 授权请求的痛点。

https://github.com/anthropics/claude-desktop-buddy

(@felixrieseberg@X)

2、Phonely 获 A 轮融资：通过自研专用小模型集群架构实现百万级语音 AI 通话优化

语音 AI 初创公司 Phonely （YC S24）宣布完成由 Base10 领投的 A 轮融资。该公司弃用通用大模型方案，通过自研的专用小模型集群技术栈，为保险、呼叫中心等行业提供高并发、低延迟的入站通话智能体服务，旨在通过数据驱动的脚本微调提升电话业务转化率。

多专用小模型（Specialized Small Models）架构：针对「信息提取」、「潜在客户识别」等特定子任务部署独立的小型化模型，替代单一大型 LLM。该方案在降低推理成本的同时，显著解决了语音交互中的高延迟问题。
语音转化率优化（CRO for Voice）：引入类似 Web 端的转化率优化机制，支持企业根据统计反馈微调 AI 提问逻辑。数据显示，通过优化特定提问环节，业务结果产出可提升 5%。
规模化入站（Inbound）处理：目前每月处理数百万次跨行业通话，核心应用场景集中在广告引流后的入站咨询与初步筛选，目标在今年年底实现通话者近乎无感知的 AI 交互体验。
端到端工程化优化：创始人表示延迟（Latency）已不再是技术瓶颈，当前研发重点已转向对话的逻辑准确性与「非判断性」交互体验，以消除用户面对人工客服时的心理压力。

(@dessaigne@X)

3、Speechmatics 发布语音生物标记平台：15 秒采样识别 30 余种健康信号，包括 2 型糖尿病、精神压力、疲劳及抑郁症状

Speechmatics 与 thymia 宣布达成深度合作，推出集成医疗级语音转文字（STT）与临床级语音生物标记智能的联合平台。该系统能够从 15 秒的自然语音中实时提取并分析 30 多种健康指标，包括 2 型糖尿病、精神压力、疲劳及抑郁症状。

15 秒采样与实时推断：系统以 15 秒为间隔处理音频流，通过分析声学（Acoustic）与语言（Linguistic）模式中的神经学特征提取健康信号，在提供标准转录的同时实时返回诊断参考。
高鲁棒性多模态数据集：模型基于超过 75,000 个独特声音的动态测量数据（跨越 6 年研发）以及数百万小时的多口音语音数据训练，确保非母语及带口音语音下的识别准确率维持在 85% 以上。
无硬件依赖的 API 集成：采用单一 API 接口提供服务，支持云端、本地及设备端部署；无需传感器或其他专用硬件，可直接嵌入现有语音智能体、呼叫中心系统或车载终端。

( @globenewswire)

4、Eigen 完成 1500 万美元种子轮融资：Benchmark 领投，主攻「共时性」社交智能体

AI 初创公司 Eigen 宣布完成 1500 万美元种子轮融资，由 Benchmark 领投，Pinterest 联合创始人 Ben Silbermann 及 Meta 前高管 David Singleton 参投。该公司旨在开发一种「亲社会（Pro-social）」的 AI 架构，核心逻辑是从「个人 AI 伴侣」转向创造人类用户之间的「共享、共时性体验」。

「互为好友」式产品架构：不同于 Replika 或 Character.ai 等主打 1 对 1 私密陪伴的路径，Eigen 试图构建一种作为「共同好友」存在的智能体，旨在增强现实社交关系而非替代社交，通过 AI 媒介实现多用户间的同步交互。
「U 型」团队组织模式：公司跳过中层管理岗位，由资深技术专家直接与年轻创意人才协作。团队成员包含多名初创公司创始人及专业编剧，强调工程开发与叙事逻辑的深度耦合。
对抗超个性化（Hyper-personalization）孤岛：Scherer 提出 AI 不应仅为个人定制「完美世界」，而应构建群体共享的数字环境。其技术逻辑侧重于通过 AI 智能体协调多方上下文，缓解数字化进程中个人社交原子化趋势。
高估值市场切入：公司目标指向 2035 年预计达 5524.9 亿美元的全球 AI 伴侣市场。种子资金将主要用于组建核心工程团队，目前产品细节仍处于隐形阶段。