当前位置：首页 > news >正文

Cartesia 推出双榜首 SSM 语音模型，延迟低于百毫秒；贝佐斯旗下 Prometheus 融资 120 亿研发物理 AI 工程师丨日报

news 2026/6/18 0:25:14

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Cartesia 发布 Sonic-3.5 与 Ink-2 语音模型：基于状态空间模型，首音延迟降至 82ms 并集成原生轮次检测

Cartesia 推出新一代实时语音端到端模型 Sonic-3.5 与 Ink-2。该系列模型基于状态空间模型架构开发，通过单一 API 整合语音转文字与文字转语音能力，旨在消除实时语音智能体在响应速度、自然度与准确度之间的传统架构折衷。

双向超低延迟：Sonic-3.5 的合成延迟控制在 90ms 以内，P90 首字节响应延迟为 100ms；Ink-2 的转录延迟降至 100ms，配合原生轮换检测实现极速交互。

状态空间模型架构：放弃传统的 Transformer 架构，采用状态空间模型作为基础原语，在保持长上下文推理和高并发扩展效率的同时，大幅度降低计算开销与延迟。

多语言与复杂文本解析：Sonic-3.5 支持 40 多种语言，具备更强的韵律节奏与情感表现力，并原生支持字母数字混合解析，优化了多语言混杂电话场景下的识别与合成表现。

双向榜单首位：在 Artificial Analysis 发布的 Speech Arena 语音合成榜单与语音转文字榜单中，两款模型均位列行业第一。

（@krandiash@X、@cartesia.ai）

2、Qwen 发布 Qwen-Robot 具身智能模型套件：涵盖导航、操作与世界模型，实现多机型统一动作表征

Qwen 正式发布 Qwen-Robot 具身智能模型套件，由导航（RobotNav）、操作（RobotManip）和世界模型（RobotWorld）三个专业模块组成。该套件通过参数化视觉接口、统一的状态-动作空间以及自然语言动作接口，统一了不同机器人的动作表征，使具身智能体能够实现跨本体迁移与零样本控制。

自适应参数化视觉导航：Qwen-RobotNav 将导航任务（指令跟随、目标搜索、目标追踪、自动驾驶）的视觉分配策略参数化，暴露视觉 token 预算、时间衰减、逐相机权重、帧采样模式四个推理参数。模型在 15.6M 样本上训练，在 Unitree Go2 四足机器人（搭载 NVIDIA Jetson Thor）上的部署延迟为 196ms。

统一状态表征与大规模跨本体训练：Qwen-RobotManip 采用 Qwen3.5-4B VL 骨干网络与流匹配 DiT 动作头，定义了统一的 80 维状态-动作空间，以相机坐标系下的末端执行器增量位姿屏蔽硬件形态差异。模型基于超 38,100 小时操作数据（含 24,808 小时人-机迁移合成数据）训练，在 LIBERO-Plus 取得 91.4% 成功率。

双流 MMDiT 架构世界模型：Qwen-RobotWorld 采用 60 层双流 MMDiT 架构，深度耦合 Qwen2.5-VL 的语义表示与视频隐变量，以完整多模态大语言模型作为动作编码器。该模型将动作标准化为自然语言接口，在 8.6M 视频-文本对（超 2 亿帧）上训练，支持跨 8 种以上本体的多视角一致生成。

智能体闭环框架 Qwen-RobotClaw：该框架支持通用 VLM 智能体调用上述模块作为物理工具。在上层规划器（Qwen3.6-Plus）调度和双层记忆机制下，该系统在 EXPRESS-Bench 具身问答基准上提升了 15.4% 的表现，并减少了 77% 的导航步数。

（@通义实验室）

02 有亮点的产品

1、Prometheus 获 120 亿美元融资：估值达 410 亿美元，研发物理 AI「通用人工工程师」

贝佐斯与谷歌旗下生命科学部门 Verily 联合创始人 Vik Bajaj 创立的物理 AI 公司 Prometheus 宣布完成 120 亿美元的第二轮融资，投后估值达 410 亿美元。该笔资金将主要用于建设大规模算力集群，加速研发旨在自动化设计和制造复杂物理系统的「通用人工工程师」软件。Prometheus 的超大体量融资将 AI 竞争从数字空间直接推向物理制造深水区。其定义的「通用人工工程师」实质上是在尝试用大模型重构航空航天、制药等硬科技研发链条。

120 亿美元第二轮融资：由贝佐斯、摩根大通、高盛和贝莱德等联合领投，公司累计融资额已超 180 亿美元（首轮融资为 62 亿美元），估值达到 410 亿美元。
研发通用人工工程师：定位于物理世界 AI 软件，旨在实现从喷气发动机到药物化合物等复杂物理实体的全自动化设计与制造，替代大量传统工程研发流程。
算力资源密集型投入：公司目前在旧金山、伦敦和苏黎世仅拥有 150 名员工，贝佐斯确认本次募集的百亿级资金将有极大部分直接转化为计算资源采购。
高壁垒物理护城河：相较于纯软件层面的大语言模型，Prometheus 专注的物理 AI 领域因涉及物理实体的反馈与制造闭环，具备更强的行业防壁。

(@TechCrunch)

2、AI 截图管理应用 Pool 获超 200 万美元融资：通过 AI 逆向检索原始链接并提取非结构化元数据

由 Spinoff Studio 开发的 AI 个人数据管理应用 Pool 宣布获得超过 200 万美元的种子前轮融资。该应用利用 AI 将手机相册中的非结构化截图转化为结构化数据，通过逆向检索还原截图的原始上下文和链接。此轮融资将用于加速产品迭代以及开发下一代基于智能体的个人助理应用。

逆向链接与上下文检索：Pool 能自动识别截图内容并还原其原始数字路径。例如，商品截图可直接逆向链接至零售商官网，社交媒体的食谱截图可提取出具体的配料清单与制作步骤。
非结构化图片结构化分类：应用将用户授权的相册截图自动聚合，按「食谱、播客、产品、地点」等维度分类归档入特定存储区，实现静态图片的动态资产化。
时效性上下文感知与智能体引导：系统可根据截图内容的时效性进行动态管理（如活动结束后自动隐退门票条形码）。内置的 AI 智能体可识别活动海报截图，自动定位票务源并生成购票链接。
多模态搜索与内置 AI 助手：支持自然语言搜索相册内容，用户可通过内置的 AI 智能体助理进行多轮对话式查询与任务调度。

（@多知）

3、Mistral AI 拟融资 35 亿美元，估值 234 亿美元，专注工业场景定制 AI 和安全模型

法国初创公司 Mistral AI 正洽谈融资约 30 亿欧元（合 35 亿美元），估值约 200 亿欧元，据知情人士透露，这为欧洲人工智能领军企业提供了资金注入，使其在与美国和中国竞争对手的昂贵计算竞赛中保持竞争力。

知情人士表示，与投资者的讨论仍处于早期阶段，条款可能发生变化，由于讨论属于私下性质，他们要求匿名。他们称，估值可能根据投资者需求进一步上升。这家总部位于巴黎的公司在 9 月融资时估值为 117 亿欧元。

由谷歌 DeepMind 和 Meta 的研究人员于 2023 年创立，Mistral 将自己定位为欧洲对抗硅谷在人工智能领域主导地位的答案。该公司专注于为欧洲各国政府和企业提供基础设施服务，正在法国和瑞典建设由其管理的云计算设施。

近期，Mistral 将其 AI 服务定位为专为工程和制造流程量身定制，并与空中客车公司和宝马集团等欧洲大型工业企业签署了合作协议。

尽管如此，这家法国初创公司的模型和聊天机器人在企业和消费者中的吸引力远不及 OpenAI、Anthropic 以及中国竞争对手的产品。OpenAI 和 Anthropic 计划在今年上市，此前 xAI 所有者 SpaceX 已进行首次公开募股，该公司在首个交易日前的估值约为 1.8 万亿美元。OpenAI 在 3 月以 8520 亿美元的估值完成最新一轮融资，而 Anthropic 上月的估值为 9650 亿美元。

Mistral 已讨论向欧洲银行及其他机构提供其及他机构提供其替代 Anthropic 的 Mythos 的产品，这是一款善于发现网络安全漏洞的 AI 模型。Mistral 首席执行官 Arthur Mensch 将这种能力描述为国家安全风险。"我们必须掌握这项技术，"他上个月表示。

Mistral 此前的投资者包括法国国家银行 Bpifrance，以及 Lightspeed Venture Partners、General Catalyst 和 Andreessen Horowitz 等知名美国风投公司。

( @Z Potentials)