当前位置: 首页 > news >正文

Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发;OpenAI 首款 AI 手机有望明年上半年量产丨日报

bb75bd2b18ac117198a282e0feaa31e5

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、豆包大模型家族首款全模态理解模型:字节跳动 Doubao-Seed-2.0-lite 升级

 

9a855b49435d38bcbf66d23b497e230d

 

 

5 月 6 日,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择

 

新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。

 

融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态,并完成跨模态联合推理直接处理必须「音画结合」才能判断的复杂业务需求。

 

(@极客公园)

 

2、Krisp 发布 VIVA 2.0 语音智能体 SDK:集成音频中断识别与 200ms 对话轮次预测

 

语音 AI 基础设施提供商 Krisp 发布 VIVA 2.0,一套专为生产环境Voice Agent设计的服务器端 SDK。该版本通过预测式模型取代传统的静音检测机制,解决了复杂环境下的高字错率(WER)和交互延迟问题,直接提升智能体在真实通话中的转向准确度

 

  • Interruption Prediction v1(中断识别):行业首个纯音频中断识别模型,无需转录即可实时区分「mhm/okay」等反馈音(Backchanneling)与实质性中断指令。模型反应延迟低于 1 秒,针对咳嗽、喷嚏等非语音噪声的误触发率低于 5%,虚假中断率(False Positives)低于 6%。

  • Turn Prediction v3(对话轮次预测):基于语调、节奏和句子波形而非静音时长预测发言结束。相比 v2 版本,在 200ms 内捕获真实转向的准确率提升 47%;支持中、英、日、法、德等主流语言,模型体积仅 30MB。

  • Voice Isolation v3(语音隔离):重构底层推理引擎,专门清除背景人声、房间回声及编解码伪影。算法延迟控制在 15ms,旨在将高噪声环境下的 STT 字错率(WER)从 15%–30% 降低至 5% 左右

  • 实时信号探测器(Signal Detectors):新增一组轻量化 CPU 模型,支持实时检测 TTS 合成语音、说话人性别及口音,为下游 LLM 提供多维度的元数据支持。

  • 边缘与服务器端部署:SDK 完全基于 CPU 运行,无需 GPU 算力支持。

 

(@krisp.ai blog)

 

3、Hugging Face 发布 Reachy Mini 机器人智能体工具包:支持自然语言端到端开发,装机量突破 10,000 台

 

842609d089d6b971dee967158da59e30

 

 

Hugging Face 推出针对 Reachy Mini 开源桌面机器人的「智能体工具包」(Agentic Toolkit),允许用户通过自然语言描述行为需求,由 AI 智能体自主完成代码编写、测试、部署及迭代。此举旨在消除机器人开发的 SDK 门槛,通过 Hugging Face Hub 构建开源机器人应用生态。

 

  • 端到端智能体工作流:AI 智能体可直接调取托管在 GitHub 的源码与在线文档,实现从自然语言指令到代码生成、模拟测试再到实机部署的自动化闭环,无需开发者掌握特定机器人 SDK。

  • 开源应用仓库(App Store):所有应用均以开源 Repo 形式托管于 Hugging Face Hub,支持一键安装、Fork 及二次开发;目前已有 150 多名开发者贡献了包括语音助理、语言教师、国际象棋对弈等 200+ 款应用。

  • 硬件渗透规模:Reachy Mini 全球实际安装量已接近 10,000 台,近期新增交付 3,000 台,并计划在未来 30 天内再出货 1,000 台。

  • 全栈开源协议:涵盖硬件结构、底层驱动及上层应用逻辑,允许社区成员对现有 200 多款应用进行二次开发与审计。

 

https://huggingface.co/blog/clem/reachymini-appstore

 

(@ClementDelangue@X)

 

4、小米TS-ASR 大模型引入 CoT 推理与 GRPO 强化学习,车外混音识别错误率降至 4.84%

 

小米 MiLM Plus 团队推出了基于 LLM 范式的目标说话人识别(TS-ASR)大模型,并应用于新一代 SU7 车外语音系统。该技术通过声纹特征与大模型推理能力的融合,解决了「鸡尾酒会」效应下的多声源干扰问题,实现了复杂移动环境下对目标用户指令的精准提取。

 

  • 基于 LLM 范式的混合架构:采用预训练 Data2Vec2 作为语音编码器(SpeechEncoder),通过线性 Adapter 将语音特征投影至轻量化 LLM 空间,无需额外说话人编码模块即可同时捕捉语义与说话人特征。

  • 语音思维链(CoT)推理机制:模型在输出转录文本前增加推理环节,结构化分析音频中说话人数量、性别、时间段及声纹相似度(1-5 离散等级)。实验数据表明,CoT 使双人混音错误率从 7.4% 降至 5.29%

  • GRPO 强化学习算法优化:引入 GRPO 算法针对模型预测错误的难样本进行迭代,通过「识别准确率」与「格式规范」双重奖励信号,将混音场景下的识别错误率进一步压低至 4.84%。

  • TS-Tracking 动态追踪:配套移动拾音功能,支持在用户移动过程中实时追踪声源位置并进行动态转录,单人场景下的识别错误率从 8.1% 降至 3.65%。

 

(@小米技术)

02 有亮点的产品

1、喵吉托发布 Meowart:从 AI 原生游戏转向开发者工具链,实现首笔持续性收入

 

7adce92108cbfab1cedddd566ce4fe87

 

 

原字节跳动 AI 小镇负责人李驰创办的喵吉托(Meowjito)在尝试多款 AI 原生游戏后,正式将重心转向 AI 开发工具领域。其推出的**像素生成工具 Meowart **通过解决 AI 生图在像素层面的精度问题,实现了工作室的首笔持续性收入,标志着 **AI 游戏赛道从「玩法驱动」向「管线驱动」**的技术沉淀。

 

  • 实现「完美像素」 (Perfect Pixel) 生成:Meowart 解决了扩散模型在生成低分辨率素材时边缘模糊、像素点不规范的痛点,可直接产出生产环境可用的像素素材及小型像素动画,大幅降低了独立游戏的资产生产成本。

  • AI 逻辑与数值平衡的冲突规避:团队在复盘《言灵计划》等项目时发现,LLM 的黑盒属性与传统游戏(如肉鸽、数值导向游戏)的透明规则存在天然冲突,AI 介入会导致数值体系崩坏,因此开发重心已从底层逻辑 AI 化转向辅助工具化。

  • 交互成本与留存瓶颈优化:针对自然语言交互带来的高认知负载问题,团队将 AI 原生游戏的探索收缩至陪伴向(AVG)及 Agent 小镇方向,利用 LLM 的叙事优势而非对抗交互。

  • 全流程工具链规划:Meowart 计划进一步整合代码生成、策划方案生成、音乐音效及 VFX 特效能力,旨在构建一套基于 Agent 的「私人助理式」开发管线。

 

(@竞核)

 

2、千问发布电脑版 AI 语音输入法:双模快捷键交互,集成场景感知与多模态 Agent

 

dca31ce43d9edfab9d1ad446ad298c15

 

9c124bc19cd24a53be42a1f1d1d85bde

 

 

 

通义千问推出电脑端(Win/Mac)及网页版语音输入法,通过全局快捷键实现「智能转写」与「指令调度」双模操作。该产品深度集成了 PPT、Excel 及文档处理 Agent,支持跨应用场景感知,旨在将口述自然语言直接转化为专业办公产出。

 

  • 双模式快捷键交互逻辑:支持自定义全局唤起(如 Win: Right Alt / Mac: Right Command),长按执行智能转写(自动过滤语气词、纠正口误、重构结构化表达);双击触发语音指令,直接调用 AI 执行查询、回复消息或生成文档。

  • 跨应用场景感知(Context-Awareness):系统可自动识别当前活跃窗口的应用类型(如钉钉、微信、浏览器)及屏幕显示内容,据此调整输出风格或根据当前上下文(如聊天记录、会议内容)提供精准回复建议。

  • 原生 Agent 协同体系:内置 PPT Agent(基于代码生成动态排版而非传统模板)、Excel Agent(支持截图转表格、自然语言生成函数公式)以及 Word/PDF Agent(支持最多 39 种格式文件并发处理、图文数据提炼)。

  • 专业领域识别优化:针对技术办公场景,强化了中英混输及专业术语(如函数名、Token、逻辑分支等)的识别精度,并能根据口述指令(如「把数据段落提前」)实现文本的自动重排

 

(@APPSO)

03 有态度的观点

1、郭明錤:OpenAI 首款 AI 手机提速,联发科定制芯片有望明年上半年量产

 

ee864de99a300d80e9ea1e492928843b

 

 

昨天,天风国际证券分析师郭明錤更新了对 OpenAI 首款 AI 手机的预测,称该设备的量产时间表已大幅提前,预计最早将于明年上半年进入量产阶段

 

在芯片供应商方面,联发科目前已成为最有力的候选方,高通此前也曾被列为考虑对象。郭明錤透露,OpenAI 手机将搭载联发科定制版芯片,基于天玑 9600 改款,采用台积电下一代 N2P 制程,预计于今年下半年正式亮相。

 

在芯片设计上,该定制芯片将以 AI 能力为核心,而非单纯追求性能跑分。其中,ISP(图像信号处理器)被列为**「主打卖点」**,增强 HDR 处理管线,提升设备对周围环境的视觉理解能力,以契合 AI 手机持续感知与分析现实世界的使用场景。

 

此外,芯片还配备双 NPU 架构,用于处理不同类型的 AI 任务,并支持 LPDDR6 内存与 UFS 5.0 存储。郭明錤预计,若项目进展顺利,该设备明年与 2028 年的合计出货量有望达到约 3000 万部。

 

(@APPSO)

 

image

 

6fd05e6bd00fdbb8ab5fc34039e2366e

 


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

328110f8ba8021342aee34c88b9a3bec

 

 

作者提示: 个人观点,仅供参考

http://www.jsqmd.com/news/779065/

相关文章:

  • 模具工装全生命周期智能化管理,工业Agent驱动的落地方法详解
  • CPA学习软件怎么选?揽星会计CPA一个APP搞定全周期备考 - 速递信息
  • AI应用开发之特征值与SVD分解详解
  • 3步完成微信聊天记录永久备份:开源工具完整指南
  • 【掌门】2021年高中数学高一寒假专题试卷-平面向量
  • 零基础CPA入门难?揽星会计CPA APP带你从“小白”到“准注册会计师” - 速递信息
  • 悬空的语言:大语言模型与人类对“理解“的本质差异
  • AI技能地图:从数学基础到工程部署的完整学习路径解析
  • 最后30天,PMP救命冲刺法:我是如何在考前一个月提分40%的
  • 告别数据跳动!HX711与MSP432P401R的滤波算法与稳定性优化实战
  • 从流量套利到结构化增长,NetMarvel 助力越南游戏应用实现高速增长!
  • 3步破解大众点评数据采集难题:动态字体加密爬虫实战指南
  • MetisDraw - 专业绘图工作台
  • 2026年4月AIGC论文检测网站推荐,AIGC降重/免费论文查重/维普AIGC检测/论文检测,AIGC论文检测网站推荐 - 品牌推荐师
  • 英语教育软件开发:AI 背单词、AI 自习室、绘本阅读系统技术实现与源码分析,英语 App 开发、背单词 App 开发、AI 背单词 App、AI 自习室系统、英语软件定制、英语学习 App 源码、超
  • 工程师如何将技术现实转化为幽默表达:从EE Times漫画竞赛到技术写作
  • 荷兰与英国高校:无需重训实现大模型安全模式动态切换能力
  • 5步解锁VMware Workstation Pro 17:免费许可证密钥全攻略
  • 用Python和Matplotlib可视化理解:为什么梯度向量就是曲面的法线方向?
  • LangChain信息提取实战:用大语言模型从非结构化文本中高效抽取结构化数据
  • 黄金反弹关注60日线阻力
  • Arm Cortex-A75性能监控架构与实战指南
  • Rust代码可视化:基于rustc语义分析生成精准调用关系图
  • Cortex-A720内存管理机制与虚拟化优化解析
  • 【数据分析】基于遗传GA优化ANFIS用于分类预测 - Iris数据集附Matlab代码
  • 全程可视、零干扰:非侵入式 SRT 监控详解
  • ARM1136JF-S协处理器接口与调试系统深度解析
  • 自研AI产品如何借助Taotoken快速实现多模型备援与降级
  • DeepSeek V4低调发布,普通人该看懂的三件事
  • 英特尔移动战略失败解析:技术路径依赖与生态博弈的教训