
开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、OpenAI 发布三款实时语音模型

今天,OpenAI 发布三款实时语音模型,分别针对语音推理、实时翻译和流式转录三类场景:
-
GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行;
-
GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流;
-
GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。
其中,GPT-Realtime-2 搭载「GPT-5 级别的推理能力」,专为语音交互场景设计,能够在持续对话过程中处理复杂请求、多线程调用外部工具、应对用户中断,并保持对话的自然流畅。
三款模型均已通过 OpenAI Realtime API 向开发者开放,并可在 OpenAI Playground 中进行测试。
完整介绍:OpenAI Realtime API 重磅更新:锚定语音模型「深度推理+自主执行」演进路径|Voice Agent 学习笔记
( @APPSO)
2、Giga 发布语音智能体实时幻觉纠正方案:利用播报延迟窗口并行推理,生产环境幻觉率降至 1% 以下
Giga Research 针对语音智能体推出一种实时幻觉纠正技术。该技术利用 LLM 文本生成速度(约 75 tokens/s)远快于人类语速(30 词需 10-12s)的时间差,在 TTS 播报的同时引入推理模型并行检测。在不增加首字延迟(TTFB)的前提下,将 120 万轮真实通话的幻觉率从 5% 降低至 1% 以下。
-
并行双路流式架构(Parallel Streaming):系统在生成响应后同步启动两条路径:路径 A 直接将文本送入 TTS 实时播报;路径 B 将同片段送入强推理模型。两者「竞速」,若检测器在音频播放到风险点前完成判定,则执行静默拦截或补救,从而绕过「先验证再播报」带来的 3-4 秒额外延迟。
-
基于播报时长的检测窗口:由于 30 词的完整文本在 1 秒内即可生成,而播报需 10 秒以上,为推理检测留出了约 9 秒的「零延迟感」计算窗口。即使推理模型耗时 3 秒,仍有极大概率在用户听到错误信息前完成修正。
-
条件式纠正机制(Conditional Injection):根据判定时间点采取不同策略:若检测器在幻觉片段播放前完成,通过 audio_stream.block() 实现无感替换(Outcome 1);若幻觉已部分播放,则通过 audio_stream.inject() 插入「让我更正一下」等衔接语并补齐正确事实(Outcome 2)。
-
临时纠正提示(Temporary Correction Hints):修正后的元数据在当前回合结束后会被清空(correction_hint = None)。实验表明,若将纠正历史保留在 Context 中,会导致模型对冲(Hedging)率增加一倍,使智能体因「过度谨慎」而丧失表达自信。
-
生产级性能表现:在 1.2M 轮次实测中,幻觉率下降 70%,误报率(FP)控制在 0.3% 以下。针对指令冲突、上下文矛盾的检测准确率达 94-97%。
https://giga.ai/hallucinations
( @GigaAI@X)
3、阶跃星辰将完成近 25 亿美元融资
获悉,国产大模型公司阶跃星辰将完成近 25 亿美元融资。知情人士称,其红筹架构亦已拆除,这通常被视为赴港 IPO 的关键前置步骤。据悉,最新融资中产业链资本集中入场,包括华勤、龙旗、豪威、中兴等,覆盖从整机制造到上游核心器件多个环节。此外,「港版淡马锡」 香港投资管理有限公司(HKIC)也出现在股东名单中。工商信息显示,公司已于 4 月完成股改,由有限责任公司变更为股份有限公司。
(@界面新闻)
4、Spotify 发布 save-to-spotify 开源工具 支持私人播客音频上传

日前,Spotify 在 GitHub 开源推出处于 beta 阶段的命令行工具 save-to-spotify。该工具允许用户通过 Agent 和自动化流程,将 AI 生成或本地音频上传至 Spotify,以私人播客形式(仅本人可见)保存在个人库中。
该工具本身不生成音频,需结合 TTS 工具使用。它支持多种安装方式,可无缝集成至 Claude Code 等 Agent 环境。
用户完成一次性认证后,即可执行音频上传、节目及剧集管理、时间轴标记等操作。据官方博客表示,此举旨在满足用户在 Spotify 集中收听由 Agent 生成的简报等个人音频的需求。
https://github.com/spotify/save-to-spotify
(@橘鸦 Juya)
02 有亮点的产品
1、Plaud 获头部大厂投资,目前估值达 20 亿美元

根据相关渠道披露,Plaud 在 2025 年中曾获腾讯投资,当时估值为 10 亿美元,尽管双方官方对此均予否认,但其财务表现支撑了估值跳涨:2024 年该公司营收为 5600 万美元,利润率接近 20%,而 2025 年营收规模预计将翻三倍达到 2.5 亿美元。
截至 2025 年 7 月,Plaud 全球累计出货量已突破 100 万台,其高速增长的核心逻辑在于通过极简的硬件形态,精准补位了海外 iOS 系统原生通话录音功能的缺失。
在技术规格与产品形态上,Plaud Note 主打 2.9mm 超薄工业设计,通过 MagSafe 磁吸阵列适配智能手机,并集成多麦克风收音阵列以优化近场语音采集。软件层面,该设备高度依赖 LLM(大语言模型)的开放 API 能力,实现数十种语言的实时转写、智能会议纪要生成及多语种翻译。目前 Plaud 在中国内地市场已投放 Note、NotePin S 及 Note Pro 三款产品,定价区间锁定在 1149 元至 1299 元。然而,由于其核心 AI 功能(转写、总结、翻译)主要基于通用大模型封装,在缺乏独占性底层技术壁垒的情况下,其硬件护城河正面临国内成熟供应链的快速平替压力。
随着钉钉发布 AI 录音卡片 DingTalk A1 以及安克联合字节跳动推出「AI 录音豆」,Plaud 已深陷办公软件巨头的降维打击。国内巨头凭借原生的办公协作生态(如钉钉、飞书、腾讯会议),可实现从线下语音采集到线上协同文档的无缝闭环,这对功能单一的独立硬件构成了巨大挑战。目前 Plaud 在国内消费级市场的销量尚未突破 10 万台,正被迫转向医疗、金融等 B2B 垂直行业寻求落点。从行业格局看,腾讯若完成对 Plaud 的布局,意味着三大 AI 巨头已全面完成对 AI 录音硬件入口的占位,旨在将硬件作为物理触手,承接线下工作流数据并反哺其 AI 软件生态。
(@硬氪)
2、德国 AI 明星企业 DeepL 宣布裁员四分之一,约 250 人将离职

德国人工智能明星企业 DeepL 宣布大规模裁员。这家以 AI 翻译技术闻名的德国公司表示,将削减约 250 个岗位,约占员工总数的四分之一。这也是 DeepL 成立以来最大规模的一次组织调整。
DeepL 首席执行官雅雷克·库特洛夫斯基(Jarek Kutylowski)当天在 LinkedIn 发文称,公司必须进行结构性改革,以便在人工智能时代继续保持竞争力。他写道:「这一决定并非轻率作出,而是我职业生涯中最艰难的决定。」
在德国科技行业中,DeepL 长期被视为少数能够与美国科技巨头抗衡的本土 AI 企业之一。这家成立于德国科隆(Köln)的公司,凭借高质量机器翻译技术迅速崛起。在 ChatGPT 问世之前,DeepL 就已经采用自主研发的神经网络架构,其翻译效果一度被认为明显优于 Google 翻译等竞争产品。
凭借这一技术优势,DeepL 迅速积累用户和市场份额,并曾以约 20 亿美元估值,成为德国估值最高的纯人工智能企业之一。过去几年,DeepL 的业务增长速度极快。数据显示,公司营收从 2022 年的 5510 万欧元增长至 2024 年的 1.56 亿欧元,短短两年几乎增长了三倍。
与此同时,公司员工规模也快速扩张:2022 年,DeepL 仅有 271 名员工;到 2024 年底,正式员工已增至 634 人;若加上兼职、实习生和学生员工,总人数达到 972 人;而目前公司员工总数已超过 1000 人。
不过,在 AI 行业高速发展的同时,DeepL 如今却开始主动「踩刹车」。库特洛夫斯基表示,人工智能正在根本性改变企业组织结构和工作方式。「我们正经历一场巨大的结构性转变——工作的方式、执行工作的人,以及完成工作所需的人数,都在被 AI 重新定义。」他强调,此次裁员属于「结构性调整」,目的是确保 DeepL 未来继续保持 AI 领域领先地位。目前,DeepL 尚未公布具体哪些部门将受到影响。
DeepL 的裁员,也被外界视为欧洲 AI 企业当前处境的缩影。一方面,人工智能行业持续高速发展;另一方面,高昂的人力、算力与研发投入,也正在考验欧洲 AI 公司的盈利能力。尤其在美国科技巨头持续加码 AI 竞争背景下,即便是 DeepL 这样的德国「AI 明星公司」,也开始进入更加现实的降本增效阶段。
(@开元网)
3、苹果摄像头版 AirPods (H90) 传产线解散:搭载 H3 芯片与红外传感器,因欧盟合规风险搁置



苹果代号为 H90 的内置摄像头 AirPods 项目近期传出供应链异动,部分产线已原地解散。该设备旨在通过红外传感器为 Siri 提供视觉环境感知能力,但由于无法绕过欧盟关于公共空间隐私采集及旁路告知的法律红线,项目进度已实质性停滞。
-
传感器方案: 放弃可见光摄像头,采用低分辨率红外(IR)传感器(类 Face ID 模组),通过主动发射红外光感知空间深度、物体轮廓及运动状态,数据仅供端侧 AI 处理,不生成图像文件。
-
计算核心 (H3 芯片): 搭载新一代 H3 自研芯片,算力较 H2 大幅提升,旨在承载实时视觉上下文的端侧 AI 推理(On-device AI Inference),支持环境智能(Ambient Intelligence)交互。
-
物理反馈机制: 耳机柄部集成微型 LED 指示灯,传感器工作时自动亮起以提示周围人群,逻辑参考 Meta Ray-Ban 智能眼镜。
-
法律合规博弈: 核心障碍源于欧盟 CJEU C-422/24 号判决,该判决要求可穿戴设备在采集路人数据时需履行「即时告知义务」,且 H90 采集的生物特征数据(如耳部轮廓、步态)触及 GDPR 第九条禁令。
-
AI 硬件路线图调整:随着 H90 搁置,苹果 AI 穿戴重心或转向 2027 年发布的 N50 智能眼镜,同时已停止低价版 Vision Pro (N100) 的开发,策略全面转向 iPhone 的「感官外设」化。
( @APPSO)
03 有态度的观点
1、Claude Code 负责人:「Vibe Coding」这个词已经不够用了

Claude Code 负责人 Boris Cherny 当地时间周三在旧金山出席 Code with Claude 开发者大会期间表示,他已开始寻找「氛围编程(Vibe Coding)」一词的替代说法。
「氛围编程」由 OpenAI 联创 Andrej Karpathy 于 2025 年初提出,很快成为描述「借助 AI 工具和智能体写代码」这一新范式的通用说法。柯林斯在线词典去年 11 月更是将其评选为年度词汇。
但切尔尼认为,随着 Claude Code 和 OpenAI 的同类产品 Codex 已分别为各自公司带来数十亿美元收入、并持续生成数百万行可用代码,「氛围」这一措辞显得过于轻描淡写。
切尔尼曾就此向 Claude 征求替代词,得到的候选答案是卡帕西此前提出的**「智能体工程(Agentic Engineering)」,但他认为这一说法传播效果有限**。
目前,Anthropic 在官方文档中将 Claude Code 称为「AI 驱动的编程助手」和「智能体编程工具」;OpenAI 则将 Codex 定位为「帮助用户借助 AI 构建和交付的编程智能体」。
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、OpenClaw 之后,Agent 如何重新洗牌?|北京 Agent 黑客松来了

🦞 Agent Evolution Party · 北京站
一场真正面向开发者的 Agent 黑客松 + 行业大会
5 月 10 日,北京,我们想认真聊聊:
OpenClaw 之后,Agent 格局会如何被重新定义。
核心话题:
OpenClaw 之后,Agent 格局如何被重估
1 人百万 MRR + Self-evolving Agent Harness 实战
Web Agent + Consumer 新机会
Agent 时代的工作与教育新范式
📅 时间:5/10(周日)
📍 地点:北京朝阳
🎟 报名需审核(开发者 / 观众均可报名)
Luma 报名:https://luma.com/7vjii1bu?utm_source=rte
海报扫码可进活动群


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考
