当前位置：首页 > news >正文

OpenAI 发布三款新语音模型；Plaud 获头部大厂投资，估值达 20 亿美元；阶跃星辰将完成近 25 亿美元融资丨日报

news 2026/7/16 4:01:04

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、OpenAI 发布三款实时语音模型

今天，OpenAI 发布三款实时语音模型，分别针对语音推理、实时翻译和流式转录三类场景：

GPT-Realtime-2：构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断，并让对话持续自然地进行；
GPT-Realtime-Translate：支持 70 多种输入语言和 13 种输出语言的实时翻译，打破语言障碍，帮助人们更自然地交流；
GPT-Realtime-Whisper：实时转录音频流，生成字幕和注释。

其中，GPT-Realtime-2 搭载「GPT-5 级别的推理能力」，专为语音交互场景设计，能够在持续对话过程中处理复杂请求、多线程调用外部工具、应对用户中断，并保持对话的自然流畅。

三款模型均已通过 OpenAI Realtime API 向开发者开放，并可在 OpenAI Playground 中进行测试。

完整介绍：OpenAI Realtime API 重磅更新：锚定语音模型「深度推理+自主执行」演进路径｜Voice Agent 学习笔记

( @APPSO)

2、Giga 发布语音智能体实时幻觉纠正方案：利用播报延迟窗口并行推理，生产环境幻觉率降至 1% 以下

Giga Research 针对语音智能体推出一种实时幻觉纠正技术。该技术利用 LLM 文本生成速度（约 75 tokens/s）远快于人类语速（30 词需 10-12s）的时间差，在 TTS 播报的同时引入推理模型并行检测。在不增加首字延迟（TTFB）的前提下，将 120 万轮真实通话的幻觉率从 5% 降低至 1% 以下。

并行双路流式架构（Parallel Streaming）：系统在生成响应后同步启动两条路径：路径 A 直接将文本送入 TTS 实时播报；路径 B 将同片段送入强推理模型。两者「竞速」，若检测器在音频播放到风险点前完成判定，则执行静默拦截或补救，从而绕过「先验证再播报」带来的 3-4 秒额外延迟。
基于播报时长的检测窗口：由于 30 词的完整文本在 1 秒内即可生成，而播报需 10 秒以上，为推理检测留出了约 9 秒的「零延迟感」计算窗口。即使推理模型耗时 3 秒，仍有极大概率在用户听到错误信息前完成修正。
条件式纠正机制（Conditional Injection）：根据判定时间点采取不同策略：若检测器在幻觉片段播放前完成，通过 audio_stream.block（）实现无感替换（Outcome 1）；若幻觉已部分播放，则通过 audio_stream.inject（）插入「让我更正一下」等衔接语并补齐正确事实（Outcome 2）。
临时纠正提示（Temporary Correction Hints）：修正后的元数据在当前回合结束后会被清空（correction_hint = None）。实验表明，若将纠正历史保留在 Context 中，会导致模型对冲（Hedging）率增加一倍，使智能体因「过度谨慎」而丧失表达自信。
生产级性能表现：在 1.2M 轮次实测中，幻觉率下降 70%，误报率（FP）控制在 0.3% 以下。针对指令冲突、上下文矛盾的检测准确率达 94-97%。

https://giga.ai/hallucinations

( @GigaAI@X)

3、阶跃星辰将完成近 25 亿美元融资

获悉，国产大模型公司阶跃星辰将完成近 25 亿美元融资。知情人士称，其红筹架构亦已拆除，这通常被视为赴港 IPO 的关键前置步骤。据悉，最新融资中产业链资本集中入场，包括华勤、龙旗、豪威、中兴等，覆盖从整机制造到上游核心器件多个环节。此外，「港版淡马锡」香港投资管理有限公司（HKIC）也出现在股东名单中。工商信息显示，公司已于 4 月完成股改，由有限责任公司变更为股份有限公司。

（@界面新闻）

4、Spotify 发布 save-to-spotify 开源工具支持私人播客音频上传

日前，Spotify 在 GitHub 开源推出处于 beta 阶段的命令行工具 save-to-spotify。该工具允许用户通过 Agent 和自动化流程，将 AI 生成或本地音频上传至 Spotify，以私人播客形式（仅本人可见）保存在个人库中。

该工具本身不生成音频，需结合 TTS 工具使用。它支持多种安装方式，可无缝集成至 Claude Code 等 Agent 环境。

用户完成一次性认证后，即可执行音频上传、节目及剧集管理、时间轴标记等操作。据官方博客表示，此举旨在满足用户在 Spotify 集中收听由 Agent 生成的简报等个人音频的需求。

https://github.com/spotify/save-to-spotify

（@橘鸦 Juya）

02 有亮点的产品

1、Plaud 获头部大厂投资，目前估值达 20 亿美元

根据相关渠道披露，Plaud 在 2025 年中曾获腾讯投资，当时估值为 10 亿美元，尽管双方官方对此均予否认，但其财务表现支撑了估值跳涨：2024 年该公司营收为 5600 万美元，利润率接近 20%，而 2025 年营收规模预计将翻三倍达到 2.5 亿美元。

截至 2025 年 7 月，Plaud 全球累计出货量已突破 100 万台，其高速增长的核心逻辑在于通过极简的硬件形态，精准补位了海外 iOS 系统原生通话录音功能的缺失。

在技术规格与产品形态上，Plaud Note 主打 2.9mm 超薄工业设计，通过 MagSafe 磁吸阵列适配智能手机，并集成多麦克风收音阵列以优化近场语音采集。软件层面，该设备高度依赖 LLM（大语言模型）的开放 API 能力，实现数十种语言的实时转写、智能会议纪要生成及多语种翻译。目前 Plaud 在中国内地市场已投放 Note、NotePin S 及 Note Pro 三款产品，定价区间锁定在 1149 元至 1299 元。然而，由于其核心 AI 功能（转写、总结、翻译）主要基于通用大模型封装，在缺乏独占性底层技术壁垒的情况下，其硬件护城河正面临国内成熟供应链的快速平替压力。

随着钉钉发布 AI 录音卡片 DingTalk A1 以及安克联合字节跳动推出「AI 录音豆」，Plaud 已深陷办公软件巨头的降维打击。国内巨头凭借原生的办公协作生态（如钉钉、飞书、腾讯会议），可实现从线下语音采集到线上协同文档的无缝闭环，这对功能单一的独立硬件构成了巨大挑战。目前 Plaud 在国内消费级市场的销量尚未突破 10 万台，正被迫转向医疗、金融等 B2B 垂直行业寻求落点。从行业格局看，腾讯若完成对 Plaud 的布局，意味着三大 AI 巨头已全面完成对 AI 录音硬件入口的占位，旨在将硬件作为物理触手，承接线下工作流数据并反哺其 AI 软件生态。

（@硬氪）

2、德国 AI 明星企业 DeepL 宣布裁员四分之一，约 250 人将离职

德国人工智能明星企业 DeepL 宣布大规模裁员。这家以 AI 翻译技术闻名的德国公司表示，将削减约 250 个岗位，约占员工总数的四分之一。这也是 DeepL 成立以来最大规模的一次组织调整。

DeepL 首席执行官雅雷克·库特洛夫斯基（Jarek Kutylowski）当天在 LinkedIn 发文称，公司必须进行结构性改革，以便在人工智能时代继续保持竞争力。他写道：「这一决定并非轻率作出，而是我职业生涯中最艰难的决定。」

在德国科技行业中，DeepL 长期被视为少数能够与美国科技巨头抗衡的本土 AI 企业之一。这家成立于德国科隆（Köln）的公司，凭借高质量机器翻译技术迅速崛起。在 ChatGPT 问世之前，DeepL 就已经采用自主研发的神经网络架构，其翻译效果一度被认为明显优于 Google 翻译等竞争产品。

凭借这一技术优势，DeepL 迅速积累用户和市场份额，并曾以约 20 亿美元估值，成为德国估值最高的纯人工智能企业之一。过去几年，DeepL 的业务增长速度极快。数据显示，公司营收从 2022 年的 5510 万欧元增长至 2024 年的 1.56 亿欧元，短短两年几乎增长了三倍。

与此同时，公司员工规模也快速扩张：2022 年，DeepL 仅有 271 名员工；到 2024 年底，正式员工已增至 634 人；若加上兼职、实习生和学生员工，总人数达到 972 人；而目前公司员工总数已超过 1000 人。

不过，在 AI 行业高速发展的同时，DeepL 如今却开始主动「踩刹车」。库特洛夫斯基表示，人工智能正在根本性改变企业组织结构和工作方式。「我们正经历一场巨大的结构性转变——工作的方式、执行工作的人，以及完成工作所需的人数，都在被 AI 重新定义。」他强调，此次裁员属于「结构性调整」，目的是确保 DeepL 未来继续保持 AI 领域领先地位。目前，DeepL 尚未公布具体哪些部门将受到影响。

DeepL 的裁员，也被外界视为欧洲 AI 企业当前处境的缩影。一方面，人工智能行业持续高速发展；另一方面，高昂的人力、算力与研发投入，也正在考验欧洲 AI 公司的盈利能力。尤其在美国科技巨头持续加码 AI 竞争背景下，即便是 DeepL 这样的德国「AI 明星公司」，也开始进入更加现实的降本增效阶段。

（@开元网）

3、苹果摄像头版 AirPods （H90）传产线解散：搭载 H3 芯片与红外传感器，因欧盟合规风险搁置

苹果代号为 H90 的内置摄像头 AirPods 项目近期传出供应链异动，部分产线已原地解散。该设备旨在通过红外传感器为 Siri 提供视觉环境感知能力，但由于无法绕过欧盟关于公共空间隐私采集及旁路告知的法律红线，项目进度已实质性停滞。

传感器方案： 放弃可见光摄像头，采用低分辨率红外（IR）传感器（类 Face ID 模组），通过主动发射红外光感知空间深度、物体轮廓及运动状态，数据仅供端侧 AI 处理，不生成图像文件。
计算核心（H3 芯片）： 搭载新一代 H3 自研芯片，算力较 H2 大幅提升，旨在承载实时视觉上下文的端侧 AI 推理（On-device AI Inference），支持环境智能（Ambient Intelligence）交互。
物理反馈机制： 耳机柄部集成微型 LED 指示灯，传感器工作时自动亮起以提示周围人群，逻辑参考 Meta Ray-Ban 智能眼镜。
法律合规博弈： 核心障碍源于欧盟 CJEU C-422/24 号判决，该判决要求可穿戴设备在采集路人数据时需履行「即时告知义务」，且 H90 采集的生物特征数据（如耳部轮廓、步态）触及 GDPR 第九条禁令。
AI 硬件路线图调整：随着 H90 搁置，苹果 AI 穿戴重心或转向 2027 年发布的 N50 智能眼镜，同时已停止低价版 Vision Pro （N100）的开发，策略全面转向 iPhone 的「感官外设」化。