当前位置：首页 > news >正文

硬件版 AI 语音输入法：SpeakON 发布 MagSafe 设备，格式化转录文本输出第三方 App；安防厂商萤石推出儿童 AI 相机 EZVIZ Pika丨日报

news 2026/6/11 3:09:13

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、小米 MiMo-V2.5 系列开启公测：旗舰版对标 Claude Opus 4.6

小米昨天正式宣布 Xiaomi MiMo-V2.5 系列大模型开启公测，涵盖 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series 及 MiMo-V2.5-ASR 四款产品，并宣布两款主力模型即将全球开源。

MiMo-V2.5-Pro（旗舰，长程 AI 智能体）：

对标 Claude Opus 4.6、GPT-5.4，可稳定完成单次近千轮工具调用的长程任务；
4.3 小时完成北大《编译原理》课程 SysY 编译器项目，隐藏测试集取得 233/233 满分；
11.5 小时独立构建含多轨道时间线、音频混合等功能的视频编辑器 Web 应用（8192 行代码）；
相比 Kimi K2.6，在同等 ClawEval 基准下节省 42% Token。

MiMo-V2.5（通用，原生全模态 AI 智能体）：

原生支持图像、音频、视频多模态输入，Agent 能力全面超越上一代 MiMo-V2-Pro；
API 成本较上一代降低约 50%，在 VideoMME、CharXiv、MMMU-Pro 等评测中逼近顶级闭源模型；
相比 Muse Spark，在同等 ClawEval 基准下节省 50% Token。

(@APPSO)

2、李飞飞团队最新研究揭示多模态 AI 致命缺陷：没给图片，它照样「看」得头头是道

斯坦福大学李飞飞团队近日发表论文，揭示了当前主流多模态 AI 存在一种系统性缺陷——即便没有收到任何图片，GPT-5、Gemini 3 Pro、Claude Opus 4.5 等前沿模型依然会「自信地」描述图像细节并给出诊断结论。

研究者将这一现象命名为「海市蜃楼式推理」（Mirage Reasoning）。

团队构建了一个名为 Phantom-0 的测试集，将 200 道需要看图才能作答的问题的图片全部拿掉，同时不告知模型。结果显示，所有被测模型在超过 60% 的情况下会「描述」一张根本不存在的图片。

若加入常见的评测提示语，这一比率甚至飙升至 90%-100%。在六大主流多模态基准测试上，模型在「无图模式」下平均仍能保留原始得分的 70%-80%，意味着图片本身对最终得分的真实贡献可能只有 20%-30%。

更具冲击力的是，团队用 Qwen-2.5 训练了一个仅有 30 亿参数、从未看过任何图片的纯文本小模型，在胸部 X 光问答基准上不仅击败了所有多模态大模型，还将人类放射科医生的平均水平甩开了 10 个百分点以上。

这一缺陷在医疗场景中尤为危险：图片上传失败时，模型不会报错，而是直接输出措辞专业的诊断报告，且内容系统性地偏向心肌梗死、黑色素瘤等需要紧急处置的重症。

针对这一漏洞，团队提出了 B-Clean 清洗框架，将三份权威基准中 74%～77% 的题目判定为「不看图也能答对」并予以剔除，清洗后各模型得分大幅下滑，三分之二的基准出现排名逆转。

论文全文：arxiv.org/abs/2603.21687

(@APPSO)

02 有亮点的产品

1、安防巨头下场做拍学机，萤石 Pika 要做儿童的外挂大脑

视觉安防厂商萤石（EZVIZ）推出首款儿童 AI 相机 EZVIZ Pika。该设备采用自研蓝海大模型并接入豆包、DeepSeek API，将安防级视觉识别技术转化为移动端实时科普工具，实现了从被动监控到主动交互的场景迁移。

AI 双引擎架构：内置萤石自研「蓝海大模型」，并集成豆包、DeepSeek 第三方 LLM 接口，支持通过后置摄像头实时识别物体（花卉、昆虫等）并进行自然语言科普讲解。
影像硬件规格：搭载前后双 4K 摄像头，支持语音操控拍摄及最高 2x 焦距调节；机身重量 80g，采用圆润化工业设计以适配儿童操作。
边缘计算演进：后续将上线本地版万物识别算法，无需完全依赖云端即可实现特定目标的运动跟踪与记录。
通信与定位模组：集成 GPS + 北斗双模定位系统，支持电信/联通双 4G 网络，并采取「终身免费流量」策略以确保设备始终在线。

放眼整个赛道，伴随着玩家逐渐涌入，拍学机市场正处于大爆发前夜。过去，这个领域缺乏具备硬核底层技术的大厂坐镇；如今，萤石的入局，不仅提升了整个品类的供应链与算法水位，更释放出一个其实已经被反复证明的确切信号：

AI 硬件的下一波红利，将产生在那些能够把大模型能力与特定生活方式进行深度缝合的垂直工具上。

（@深圳湾）

2、Gyges Labs 发布 Vocci 智能戒指：3g 钛合金机身集成多智能体架构，主点位 AI 记忆增强

Gyges Labs 推出 Vocci 智能戒指。该产品取消了健康监测功能，定位为 AI Agent 的物理入口，通过指尖按键实现一键录音、实时「干货」标记及跨平台任务执行（如将语音指令转化为 PPT 并发送邮件），旨在消除手机端 AI 交互的摩擦力。

高密度硬件工程堆叠：在 2.8mm 壁厚、约 3g（12 号戒圈）的钛合金空间内，集成了高保真 MEMS 麦克风、定制低功耗电池及高密度柔性电路板（FPC），壁厚较 Oura 减薄 0.1mm。
Anytime-ready 交互逻辑：采用物理按键配合震动马达反馈，支持「盲操作」指令。用户通过短按（标记重点）、长按（触发 AI 指令）、双击（开启录音）控制云端智能体，规避了全时监听带来的隐私风险。
多智能体（Multi-agent）架构：后端集成至少三家主流 LLM，支持将长篇音频自动提纯为「原子化干货」，并可直接调用外部接口执行复杂任务（如自动生成 PPT 并发送至指定邮箱）。
音频性能指标：支持 5 米范围精准收音及连续 8 小时高清录音，录音性能指标对标主流 PC 与智能手机。
主动社交语义设计：侧面设置录音指示灯，在录音状态下常亮。通过视觉信号明确隐私边界，以符合社交礼仪的方式完成信息捕捉。

（@深圳湾）

3、SpeakON 发布 MagSafe AI 实体按钮：集成独立麦克风，支持格式化文本直接注入活跃 App

新加坡初创公司 SpeakON 推出一款 MagSafe 物理 AI 按钮及配套 iOS 应用 该产品通过 硬件端一键唤起语音采集，利用 AI 实时滤除杂音与口语冗余，并将 优化后的结构化文本直接注入当前活动的第三方应用文本框，旨在消除移动端 AI 交互的跨应用摩擦。

免切换文本注入技术：AI 处理后的文本无需通过剪贴板中转，可直接进入 Slack、Gmail、WhatsApp 等当前活跃应用的输入框，实现从语音到目标应用文本的零跳转交付。
Attune 功能：上下文语调引擎：内置四种预设模式（Casual、Cordial、Formal、Off），支持根据目标应用场景自动调整输出，具备自动过滤填充词、修正中途转折及语法润色能力。
硬件级独立采集架构：设备重量低于 26.5g，采用专用麦克风（非 iPhone 系统麦克风）进行音频捕捉，支持 USB-C 快充，兼容 iPhone 12 及以上 MagSafe 机型。
语义结构化：具备意图识别功能，可将非结构化的口述内容自动转化为标准的 To-do List、行动项或 Markdown 列表格式。
企业级合规与隐私方案：已通过 SOC-2 Type 2 认证，符合 HIPAA 和 GDPR 标准，核心机制确保音频数据不被存储。

（@prnewswire,@producthunt)

4、Prego 推出 Connection Keeper：无屏幕 IoT 录音设备，支持云同步与美国国会图书馆存档

意面酱品牌 Prego 联合非营利组织 StoryCorps 推出「Connection Keeper」限量版音频采集硬件。该设备旨在通过低摩擦的交互方式捕捉家庭用餐对话，并实现云端备份与国家级数字档案馆的长效保存。

这款限量版「Connection Keeper」是一款简单、无屏幕的对话录音设备，它是圆盘状的，类似于 Prego 意面酱的盖子。把它放置在餐桌中央，用于录制家庭的对话。

它可以录下用餐时自然流露的笑声、故事和珍贵时刻，并将这些录音保存下来，供未来多年重温。全程无需手机、屏幕或其他干扰。

用餐开始时，只需轻敲小盒子，使用可选的对话提示卡，设备便会开始工作。

原始录音会自动保存到内存中，然后同步到 StoryCorps 门户网站的云端，家庭成员可以在那里保存、整理、重新分享和稍后回顾他们的晚餐记录。

它使用 16GB 的 microSD 卡进行录制，最多可存储 8 小时的对话。

StoryCorps 声称，其门户网站（以及所有上传的家庭录音）都受到全面加密和用户隐私控制（尽管具体细节尚未公布）。该门户网站将于 5 月 4 日上线。据该公司称，文件默认设置为私密，但用户可以选择将任何文件上传到 StoryCorps 公共档案馆。更令人兴奋的是，这些录音将被保存在美国国会图书馆，供后代查阅。

（@多知）