当前位置: 首页 > news >正文

Claude Code 发布蓝牙 API,允许第三方硬件监听特定事件;语音识别疲劳、抑郁和 2 型糖尿病,Speechmatics 发布生物标记平台丨日报

 

64daa915fcea291ce3f40567710596e0

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、腾讯发布并开源混元世界模型 HY-World 2.0

 

腾讯混元团队日前正式发布并开源了多模态世界模型 HY-World 2.0。该模型支持通过文本、图像和视频等多模态输入,自动生成、重建并模拟可交互的完整 3D 世界。

 

与以往仅生成像素级视频的模型不同,HY-World 2.0 直接输出 Mesh、3DGS 和点云等真正可编辑且持久化的 3D 资产,能够无缝导入 Unity、Unreal Engine 等主流游戏引擎进行二次开发

 

其不仅原生具备 3D 一致性,还内置了支持物理碰撞和物理感知移动的交互式角色探索模式。

 

目前,官方已在 GitHub 和 Hugging Face 等平台开源了技术报告、WorldMirror 2.0 的推理代码与模型权重,其余核心模块代码及权重也即将陆续释出。

 

https://github.com/Tencent-Hunyuan/HY-World-2.0

 

https://huggingface.co/tencent/HY-World-2.0

 

(@橘鸦 Juya)

 

2、OpenAI 发布 Codex 更新:集成 gpt-image-1.5,支持视觉驱动的背景计算机操控

 

OpenAI 宣布 Codex 完成多模态能力重构,从单一的代码文本生成演进为「视觉-操作」闭环系统。新版本通过集成 gpt-image-1.5 模型与计算机操控(Computer Use)技术,使智能体能够感知 UI 像素、自主跨应用执行任务,并直接在开发工作流中生成与迭代视觉资产。

 

像素级背景计算机操控(Background Computer Use)基于多模态视觉感知,Codex 能够识别屏幕元素并驱动独立光标进行点击与输入。支持在 macOS 背景环境中多智能体并行操作,无需 API 即可通过视觉反馈完成前端调试、应用测试及复杂 UI 交互。

 

gpt-image-1.5 原生集成:Codex 现支持在代码编辑器内直接调用图像模型。开发者可结合代码逻辑与屏幕截图,生成并迭代产品原型图、前端视觉组件及游戏素材,实现从代码到视觉资产的同环境转换。

 

多模态交互浏览器与富媒体预览:内置浏览器支持开发者在页面直接标注(commenting)以提供视觉指令;侧边栏新增对 PDF、电子表格、幻灯片及文档的深度解析与预览,增强了非文本类工程文档的上下文提取能力。

 

长效记忆(Memory)与多模态自动化:支持跨会话保留视觉偏好与操作修正记录。智能体可根据 Google Docs 评论、Slack 消息及 Notion 截图的多维上下文,自动规划并执行跨度数周的长周期开发任务。

 

MCP 插件体系扩展:新增 90 多个插件支持,通过模型上下文协议(MCP)整合 Atlassian Rovo、CircleCI、GitLab 等工具,使智能体能够在视觉操作的同时,通过标准化接口获取深度技术上下文。

 

参考链接:

 

https://openai.com/index/codex-for-almost-everything/

 

( @OpenAI)

 

3、OpenMOSS 开源音频统一理解模型 MOSS-Audio

 

OpenMOSS 团队正式开源 MOSS-Audio 音频统一理解模型。该模型通过模块化架构整合了语音识别、环境声感知、音乐分析及复杂音频推理能力,实现了极高精度的词级/句级时间戳定位,在多项音频理解基准测试中以 4B/8B 参数规模超越了更大尺寸的开源及闭源模型。

 

baf5f27654ad34222d2c340d8213a541

 

 

  • DeepStack 跨层特征注入机制:不同于传统仅提取编码器顶层特征的方案,MOSS-Audio 选取编码器早期和中间层特征,通过独立投影注入 LLM 前几层。该架构有效保留了韵律、音色、瞬态事件及局部时频结构等底层声学细节

  • 显式时间感知表示(Time Marker):在预训练阶段按固定时间间隔插入显式时间标记,使模型在统一文本生成框架下具备细粒度时间定位能力。其在 AISHELL-1 上的 AAS 指标(35.77)相比 Qwen3-Omni 和 Gemini-3.1-Pro 实现了数量级领先。

  • 13 维度细粒度语音描述能力:支持对性别、年龄、口音、音高、音量、语速、音色质感、情绪及个性特征等 13 个维度进行结构化分析,MOSS-Audio-8B-Instruct 在综合评分中位列 SOTA。

 

550290b2ac9ee0b76c272db8d4b7c5cf

 

 

  • 思维链(CoT)与推理增强:MOSS-Audio-8B-Thinking 版本通过 CoT 训练与强化学习,支持对复杂音频内容进行多跳推理,其通用音频理解平均准确率达到 71.08,超越了部分 30B+ 规模的开源模型。

 

通用音频描述 Demo:

 

<think>

 

音档内容是一位男性说话者,语气带有自信和些许夸耀。说话者透过一连串反问句来强调自己的经历与能力,句末常带有上扬的语调,例如「你干过吗?」. 语速整体中等偏快,尤其在列举成就时更为明显。内容围绕说话者声称自己完成了许多令人惊叹或不寻常的事情,例如跳过楼、与坦克近距离接触(被坦克压过)、野外生存、吃遍各种蚯蚓、开飞机、坦克漂移,以及完成两项电影史上的首次活动(《战狼 1》、《战狼 2》)。说话者在[00:08]处有轻微的口腔音。最后以「我觉得这是我最大的成就」作结,语气显得相当肯定。整体语篇结构是列举式陈述,透过对比来突显自身与众不同之处。音档中没有明显的背景噪音或其他说话者。说话者在[00:00]-[00:06]、[00:07]-[00:13]、[00:15]-[00:20]及[00:23]-[00:29]进行了多次提问和陈述,其间穿插了短暂停顿,如[00:06]和[00:13]的停顿。这些停顿有助于听者消化信息,并在说话者转换话题或强调下一点之前制造悬念。例如,在[00:25]提到「中国电影人之前没人干的事儿」时,语气略带自豪。最后的陈述语气坚定。

 

</think>

 

说话者以一连串充满自信的反问句开场,列举了自己多项惊人的个人经历,包括完成电影史上的重要拍摄以及多项常人难以企及的举动。其语气坚定,句末语调上扬,强调个人成就的独特性,并在结尾处以肯定的语气总结,认为这些是他的最大成就。

 

GitHub:

 

https://github.com/OpenMOSS/MOSS-Audio

 

HuggingFace:

 

https://huggingface.co/collections/OpenMOSS-Team/moss-audio

 

(@模思智能)

02 有亮点的产品

1、Claude 桌面端发布 Bluetooth API:支持硬件设备实时监听智能体状态

 

d1f1eaa12c9e434e3aa4c2c2ebe5c7cc

 

 

Anthropic 在 Claude 桌面应用(Cowork 与 Code 模式)中上线原生 Bluetooth API。该接口允许开发者构建外部硬件设备,通过蓝牙实时同步 Claude 的内部运行状态,实现 LLM 软件与物理世界的异步交互。

 

  • 支持跨模式硬件联动:Bluetooth API 覆盖 Claude 桌面端的 Cowork 与 Code 核心模式,允许第三方硬件作为 Claude 的物理外设运行。

  • 状态触发机制:硬件设备可实时监听 Claude 的特定事件,例如当智能体(agent)因安全策略挂起并「等待用户操作权限」时,触发物理信号。

  • 面向 Maker 生态的端到端交互:开发者可利用该 API 开发专用通知器、物理控制台或嵌入式交互设备(如桌面宠物),通过物理震动、光效或音频解决用户在多任务办公时错过 AI 授权请求的痛点。

 

https://github.com/anthropics/claude-desktop-buddy

 

(@felixrieseberg@X)

 

2、Phonely 获 A 轮融资:通过自研专用小模型集群架构实现百万级语音 AI 通话优化

 

fa3d860e7bfc6f4152aa858bfd2e9a84

 

 

语音 AI 初创公司 Phonely (YC S24) 宣布完成由 Base10 领投的 A 轮融资。该公司弃用通用大模型方案,通过自研的专用小模型集群技术栈,为保险、呼叫中心等行业提供高并发、低延迟的入站通话智能体服务,旨在通过数据驱动的脚本微调提升电话业务转化率

 

  • 多专用小模型(Specialized Small Models)架构:针对「信息提取」、「潜在客户识别」等特定子任务部署独立的小型化模型,替代单一大型 LLM。该方案在降低推理成本的同时,显著解决了语音交互中的高延迟问题

  • 语音转化率优化(CRO for Voice):引入类似 Web 端的转化率优化机制,支持企业根据统计反馈微调 AI 提问逻辑。数据显示,通过优化特定提问环节,业务结果产出可提升 5%

  • 规模化入站(Inbound)处理:目前每月处理数百万次跨行业通话,核心应用场景集中在广告引流后的入站咨询与初步筛选,目标在今年年底实现通话者近乎无感知的 AI 交互体验。

  • 端到端工程化优化:创始人表示延迟(Latency)已不再是技术瓶颈,当前研发重点已转向对话的逻辑准确性与「非判断性」交互体验,以消除用户面对人工客服时的心理压力

 

(@dessaigne@X)

 

3、Speechmatics 发布语音生物标记平台:15 秒采样识别 30 余种健康信号,包括 2 型糖尿病、精神压力、疲劳及抑郁症状

 

Speechmatics 与 thymia 宣布达成深度合作,推出集成医疗级语音转文字(STT)与临床级语音生物标记智能的联合平台。该系统能够从 15 秒的自然语音中实时提取并分析 30 多种健康指标,包括 2 型糖尿病、精神压力、疲劳及抑郁症状。

 

  • 15 秒采样与实时推断:系统以 15 秒为间隔处理音频流,通过分析声学(Acoustic)与语言(Linguistic)模式中的神经学特征提取健康信号,在提供标准转录的同时实时返回诊断参考。

  • 高鲁棒性多模态数据集:模型基于超过 75,000 个独特声音的动态测量数据(跨越 6 年研发)以及数百万小时的多口音语音数据训练,确保非母语及带口音语音下的识别准确率维持在 85% 以上。

  • 无硬件依赖的 API 集成:采用单一 API 接口提供服务,支持云端、本地及设备端部署;无需传感器或其他专用硬件,可直接嵌入现有语音智能体、呼叫中心系统或车载终端。

 

( @globenewswire)

 

4、Eigen 完成 1500 万美元种子轮融资:Benchmark 领投,主攻「共时性」社交智能体

 

371825b574aab4cb40d98eeb88fcf248

 

 

AI 初创公司 Eigen 宣布完成 1500 万美元种子轮融资,由 Benchmark 领投,Pinterest 联合创始人 Ben Silbermann 及 Meta 前高管 David Singleton 参投。该公司旨在开发一种「亲社会(Pro-social)」的 AI 架构,核心逻辑是从「个人 AI 伴侣」转向创造人类用户之间的「共享、共时性体验」

 

  • 「互为好友」式产品架构:不同于 Replika 或 Character.ai 等主打 1 对 1 私密陪伴的路径,Eigen 试图构建一种作为「共同好友」存在的智能体,旨在增强现实社交关系而非替代社交,通过 AI 媒介实现多用户间的同步交互。

  • 「U 型」团队组织模式:公司跳过中层管理岗位,由资深技术专家直接与年轻创意人才协作。团队成员包含多名初创公司创始人及专业编剧,强调工程开发与叙事逻辑的深度耦合。

  • 对抗超个性化(Hyper-personalization)孤岛:Scherer 提出 AI 不应仅为个人定制「完美世界」,而应构建群体共享的数字环境。其技术逻辑侧重于通过 AI 智能体协调多方上下文,缓解数字化进程中个人社交原子化趋势

  • 高估值市场切入:公司目标指向 2035 年预计达 5524.9 亿美元的全球 AI 伴侣市场。种子资金将主要用于组建核心工程团队,目前产品细节仍处于隐形阶段。

 

( @fortune)

03 有态度的观点

1、黄仁勋:若 DeepSeek 率先在华为平台上出现,「对美国将是可怕的结果」

 

4d4987a77f3b83e3b01d789cd2a8a2e0

 

 

英伟达 CEO 黄仁勋近日在接受科技播客主持人 Dwarkesh Patel 专访时,就美国对华 AI 芯片出口管制政策发出警告

 

针对 Patel「向中国出售英伟达芯片可能助其训练具备网络攻击能力的 AI 模型」这一质疑,黄仁勋直言 「你的前提就是错的」

 

他指出,Anthropic 旗下 Claude 模型是在规模相当普通的算力上训练完成的,而此类算力在中国「大量可得」;中国拥有全球约 50% 的顶尖 AI 研究人员,算力限制反而倒逼出「极其聪明的算法」,DeepSeek 的出现「绝非无关紧要的进步」

 

他随即抛出核心警告:「如果 DeepSeek 第一款在华为上发布,那对美国将是一个可怕的结果。」

 

在他看来,极端的出口管制会形成反效果——迫使中国顶尖开源模型专门针对华为等本土硬件深度优化,一旦这些模型在华为架构上跑得最好,英伟达平台的全球吸引力将被直接削弱

 

如果我们被迫离开中国,这会加速他们的芯片产业发展,并迫使他们所有的 AI 生态系统专注于自己的内部架构。

 

黄仁勋指出,随着中国 AI 模型以开放标准向全球南方国家扩散,美国可能在长期技术标准竞争中陷入被动,而这一切的根源,正是主动放弃全球第二大市场的战略失误。

 

( @APPSO)

image

 

cc5edb6526c9c3731d8f568deb2aa1c9

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

b2b8806f3d08cfc36b6b723eaeb2d1cf

 

 

作者提示: 个人观点,仅供参考

http://www.jsqmd.com/news/665956/

相关文章:

  • ESP32物联网设备开发终极指南:3步搭建专业传感器网络监控系统
  • 终极指南:如何使用diff-pdf快速发现PDF文档的视觉差异
  • Verilog仿真翻车现场:Testbench里这些‘坑’你踩过几个?(含$monitor、defparam避坑指南)
  • 5大核心功能揭秘:SuperCom串口调试工具如何让硬件开发效率提升300%
  • 3个关键问题,理解AI代码生成评估的核心挑战
  • Elasticsearch 核心 API:Bulk 批量操作 API 原理与实战详解
  • 别再只盯着开关了!用Lovelace卡片把小米智能插座的实时功率‘秀’出来(附HACS插件安装避坑)
  • 深聊GRP定制方案、容器供应商、耐腐蚀材料,靠谱的怎么选择 - mypinpai
  • BES恒玄单线串口通讯避坑指南:解决‘收不到数据’、‘波形异常’等三大调试难题
  • 【全套打包】豆包AI保姆级教程:30节VIP实战课,手把手带你玩转AI创作
  • 3步打造个人离线小说图书馆:终极小说下载工具完全指南
  • 终极视频修复指南:用Untrunc轻松恢复损坏的MP4/MOV文件
  • 从零部署AGI科研工作流:SITS2026开源框架实操手册(含GPU资源优化清单+论文生成审计日志模板)
  • TwinCAT 3 XML-Server保姆级教程:从安装TF6421到四种功能块实战(附避坑指南)
  • 2026年电动吸盘定制哪家好,南通爱扬口碑好 - myqiye
  • 你的私人AI篮球教练:用人工智能技术精准分析投篮动作
  • 免费AMD Ryzen处理器调试工具:SMUDebugTool快速入门指南
  • 多模态感知准确率提升47%的关键路径,深度解析Transformer-XL+神经符号融合架构
  • 5分钟快速上手:免费Markdown浏览器扩展终极指南
  • 保姆级教程:用STM32CubeMX 7.0和CUBE-AI,把Keras模型塞进你的F4开发板
  • 2026奇点大会闭门圆桌实录:AGI训练能耗 vs 气候收益的黄金平衡点(附12国算力调度协议原始签字页扫描件)
  • 性价比高的GFRP厂家怎么选,质量认证与售后服务是关键指标 - 工业品网
  • 抖音无水印下载终极指南:5分钟快速上手批量下载工具
  • 从一次内核Oops看懂ARM64的PAN:调试与原理深度解析
  • Windows Cleaner:3分钟让C盘重获新生的终极免费清理方案
  • Windows 10 OneDrive彻底卸载技术解析:批处理脚本完整实现方案
  • 探讨化学性质稳定不结焦的反应釜导热油怎么选,这些品牌值得关注 - 工业设备
  • TouchGal Next.js 技术架构:构建现代化 Galgame 社区平台
  • SVGOMG:揭秘SVG优化的终极可视化工具,让你的网页性能飙升40%
  • 软件规模估算-类比估算法