小鹏汽车团队打造了一个专门测试AI“耳朵“的考场
这项由小鹏汽车(XPeng Motors)研究团队完成的研究以预印本形式发表于2026年4月,论文编号为arXiv:2605.18758,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
当你拿起手机,告诉语音助手"帮我把刚才那首歌加入我的歌单",或者在视频播放到精彩画面时喊一声"暂停",你其实是在做一件对人类来说极其自然、对AI来说却异常困难的事——同时看着屏幕、听着声音、感知时间流逝,然后做出反应。
目前绝大多数能帮你操作手机的AI助手,其实是"睁眼瞎"——不对,准确说是"闭耳聋"。它们只会看截图,就像一个人试图通过看一张静止的照片来理解一段正在发生的对话。屏幕上出现的文字它能读,但你说的话它听不见,视频里此刻放到哪里它不知道,背景音乐停了还是响着它更是毫无察觉。
小鹏汽车的研究团队发现了这个巨大的缺口,于是打造了一个叫做OmniGUI的全新测试平台——这是全球首个专门测试AI在手机上"同时看、同时听、同时感知时间变化"能力的标准化考场。这个考场不只是给AI看一张截图然后问"你下一步要点哪里",而是同时递给AI一段视频、一段同步录音和一张截图,考验它能不能像真人一样综合所有感官信息做出正确操作。
一、为什么现在的AI助手还停留在"看图说话"阶段
要理解OmniGUI解决的是什么问题,可以先想象一个场景:你正在用手机看一部纪录片,旁白说"当背景音乐渐渐停止的时候,导演想表达的是..."。此时你的大脑同时处理着画面内容、旁白语音和音乐的起伏变化,三者合一才能让你理解这个时刻的含义。
现在的AI手机助手做的事情完全不同。研究团队梳理了学术界已有的所有AI手机操作测试平台,发现几乎所有平台都只给AI看截图。有少数平台加入了一点视频或音频,但这些内容都是在任务开始之前给AI看的,就像老师在考试之前给你看一段教学视频,让你"先学习一下",然后再让你用截图做题。没有任何一个平台在AI每一步操作的时候,都同步提供当前时刻的视频画面和同步音频。
这个区别非常关键。真实生活中手机交互充满了"此刻独有的信号":一条通知音响起了、视频播放到了某个特定画面、旁白刚刚说了一句重要的话。这些信号转瞬即逝,不在截图里,不在事先准备好的参考视频里,只存在于"此时此刻"。测试平台如果不提供这些信号,就好比让厨师闭着眼睛炒菜——也许能完成动作,但永远做不出真正好吃的菜。
二、OmniGUI考场是怎么设计的——一个有声有色的多步骤大考
OmniGUI的核心设计思路是:在AI每走一步棋的时候,都给它看三样东西。第一样是当前屏幕的截图,这是AI的"眼睛";第二样是从上一步操作完成到现在这段时间的屏幕录像,这是AI的"动态视觉感知";第三样是这段时间里设备内部的真实音频,包括系统提示音、媒体播放声音或者用户说的话,这是AI的"耳朵"。除了这三样实时信息,AI还能看到自己之前做过的所有操作记录,这是它的"记忆"。
整个数据集由10位有超过五年安卓使用经验的专业用户手动录制完成,共涵盖29款常用手机应用,收录了709个完整的任务演示,细分下来共有2579个单步操作。这些任务横跨中英双语,其中中文应用15款、英文应用14款,保证了测试的语言多样性。平均每个任务包含约3.64个操作步骤,从简单的单步点击到需要等待特定时刻的多步复杂流程都有覆盖。
录制过程非常严谨:录制者在真实安卓手机上执行任务,系统在后台同步以每秒30帧的速度录制屏幕视频、录制设备内部音频、记录精确的触摸坐标。每一步操作的截图取自该步骤触发之前的那一刻,视频和音频片段则精确截取自上一步操作结束到当前操作开始之间的这段时间。
AI在每步操作中需要从一个包含13种基本动作的工具箱里挑选正确的行为,并给出精确的执行参数。这13种动作涵盖了手机操作的几乎所有形态:等待观察、点击、双击、长按、向上滑、向下滑、向左滑、向右滑、输入文字、返回、回主页、宣告任务完成、宣告任务无法完成。所有坐标被统一缩放到0到1000的范围内,与设备实际分辨率无关,方便不同手机型号之间的横向对比。
三、任务被分成五大能力维度,就像一张全面的体检单
研究团队在设计任务时没有随机堆砌,而是从人机交互学的角度出发,梳理出人在使用手机时大脑需要完成的五种核心认知操作,并以此为框架系统地设计了所有709个任务。
第一类能力叫"空间定位",占全部任务的20.5%,共446个操作步骤。这类任务考验的是AI能不能根据视觉或语音描述,准确找到屏幕上某个特定位置并点击。比如"点击左上角的设置图标",这在截图中就能完成,但如果位置描述来自语音,就需要AI能听懂声音里的空间描述。
第二类叫"语义理解",占19.3%,共530步。这类任务需要AI真正理解文字、画面或声音里的含义,而不是简单匹配关键词。比如用户说"把刚才那位说话者推荐的那首歌加入收藏",AI需要理解"刚才那位说话者推荐的"是什么意思,然后在界面里找到对应内容。
第三类叫"跨模态辨别",占19.9%,共514步。这类任务要求AI把来自视频、音频和文字的互补信息整合在一起做判断。比如界面上有三个看起来相似的歌单,而用户说"选那个正在播放背景音乐的那个",AI必须把声音里听到的旋律和屏幕里看到的内容对应起来才能做出正确选择。
第四类叫"时序推理",占比最高达22%,共617步。这类任务涉及动态变化——界面在动、内容在变,AI需要追踪这个变化过程,在正确的时刻做出反应。比如"当视频播放进度条到达一半的时候点击暂停",这种任务光靠截图根本没法完成。
第五类叫"即时响应",占18.3%,共472步。这类任务要求AI对转瞬即逝的声音或画面信号立即做出反应。比如"当你听到铃声响起时点击接听"——这一声铃响可能只持续几秒,AI必须当场捕捉并立即行动,没有回放,没有第二次机会。
四、任务还按"有没有音视频才能完成"分成三个难度等级
除了按认知维度分类,研究团队还从另一个角度对所有任务进行了客观标注:这个任务到底需不需要用耳朵和动态视觉才能完成?
最高难度的一类叫"音视频关键级",占全部任务的29.8%,共803步。这类任务至少有一个步骤,单靠截图根本无法判断该做什么——必须听到某段声音,或者看到视频的某个特定状态才能知道正确答案。拿文章开头那个例子来说,"当背景打击乐渐渐消失时把电影加入歌单",你不听音频根本不知道"背景打击乐消失"这件事什么时候发生。
中间一类叫"音视频辅助级",占32.4%,共860步。这类任务从截图里能猜到该做什么,但如果再加上音视频信息,判断会更准确、更有把握。好比你在一个嘈杂的餐厅里听人说话,就算没看清对方的嘴型也能大概猜出意思,但同时看嘴型的话理解会更精确。
最低难度的叫"音视频存在级",占37.8%,共916步。这类任务完全靠截图就能完成,音视频在任务里的角色只是"背景环境噪音",对判断正确操作没有任何帮助。录音机里放着音乐,屏幕上在播视频,但你要做的事情就是点击界面上清清楚楚显示着的那个按钮。
标注这三个等级的方式非常严谨。标注人员首先只看截图,判断能不能做出正确决策;然后加入视频和音频,再判断一次。两次判断对比之下,就能客观确定音视频信息对这个步骤的必要程度。研究团队随机抽取了100个任务请第二位标注人员独立完成同样的标注,两人的一致程度高达0.84(这个数字接近1表示几乎完全一致),说明这套分类标准客观且可复现。
五、考试怎么打分——四个角度全面衡量AI的表现
为了公平地比较不同AI模型的能力,研究团队设计了一套打分体系,就像一个人参加驾照考试,既要看你每个动作做没做对,也要看最终有没有顺利开出停车场。
最基础的分数叫"类型匹配率":AI选的动作类型对不对?比如这步应该"点击",AI有没有选"点击"而不是"滑动"?这个分数不管AI点的哪里,只看动作种类对不对。
更严格的分数叫"精确匹配率":动作类型对了,坐标也对了,才算一步真正完成。对于点击类操作,AI预测的坐标必须落在正确UI元素的实际边界框内;对于文字输入,生成的文字必须和目标文字完全相同。
任务级别的"成功率"更为苛刻:只有一个任务里的每一步都达到精确匹配,这个任务才算成功,否则就是0分,没有部分分。最后还有一个更温柔的"目标进度率":计算在一个多步任务里,有百分之多少的步骤精确匹配了。就算整个任务最终失败,这个指标也能反映AI完成了多少部分。
为了让每一步的评分不受前面错误的连锁影响,研究团队采用了"教师强制"的评估方法——每步评估时,AI看到的历史操作记录都是人类专家的正确操作,而不是AI自己之前可能犯的错误。这样就能精确衡量AI在每一个孤立时刻的多模态感知能力,排除错误积累带来的干扰。
六、八个顶尖AI模型走进考场,结果差距悬殊
研究团队邀请了当前最强的八个AI模型参加考试,其中包括谷歌的Gemini 3.0 Pro、Gemini 3.0 Flash、Gemini 2.5 Pro、Gemini 2.5 Flash四个商业闭源模型,以及阿里巴巴的Qwen3-Omni、MiniCPM-o 4.5、VITA-1.5和百川Baichuan-Omni-1.5四个开源模型。
需要说明的是,OpenAI的GPT-4o没有参与这次测试,原因是它的API在技术层面不支持同时接收图像和原始音频作为输入,与OmniGUI要求的实时多模态批量评估方式存在根本性的不兼容。
所有模型在测试中使用完全相同的提示词模板,没有任何针对特定模型的优化调整,确保比较的公平性。为了减少随机性对结果的影响,所有模型都被设置为"确定性输出"模式,也就是让模型每次都给出它最有把握的那个答案,而不是随机采样。
考试结果揭示了一道清晰的分水岭。在商业模型中,Gemini 3.0 Pro表现最佳,精确匹配率达到66.4%,整体任务成功率为33.1%。这意味着:在单步操作上,它大约能答对三分之二;但要完整完成一个多步任务,成功概率只有三分之一。Gemini 3.0 Flash紧随其后,精确匹配率61.3%,成功率30.3%,在某些维度上甚至略微超越了Pro版本。
Gemini 2.5 Pro和2.5 Flash的表现则明显落后于3.0系列,精确匹配率分别只有44.1%和37.8%。这个出人意料的结果说明,更新一代的模型在多模态实时交互这个特定场景下,不一定比旧版本表现更好。
开源模型与商业模型之间的差距相当悬殊。Qwen3-Omni是开源组里的最强选手,精确匹配率33.4%,任务成功率5.2%——只有5%的任务能从头到尾完美完成。VITA-1.5、MiniCPM-o 4.5和Baichuan-Omni-1.5的任务成功率均低于1.1%,几乎没有能完整成功完成多步任务的案例。
从五个认知维度来看,所有模型都在"空间定位"上表现最好——Gemini 3.0 Pro在这一维度的精确匹配率高达76.2%,因为这类任务更接近传统的截图看图操作。而在"跨模态辨别"(59.9%)和"时序推理"(61.8%)上,同一个模型的分数明显下滑,说明把动态时间信号和声音信号整合进操作决策,目前对所有AI来说都是真实存在的难题。
七、拆掉耳朵或眼睛——消融实验揭示关键瓶颈
为了验证OmniGUI的设计是否真的有意义,研究团队做了一系列"零件拆卸"实验:把给AI的输入信息一项项拿掉,看看对成绩有什么影响。这就像考试中途把考生的计算器、草稿纸、参考图表一样一样没收,观察成绩怎么变。
实验覆盖了三种拆卸方式:只拿掉音频、只拿掉视频、同时拿掉音频和视频。结果非常清晰地印证了任务分类体系的合理性。
在"音视频关键级"任务上,拿掉所有音视频输入对Gemini 3.0 Pro造成了9个百分点的精确匹配率下降。这种下降是真实的能力损失——因为决策所需的关键信息本来就在音频或视频里,没有这些信息,AI当然做不对。
与此形成鲜明对比的是,在"音视频存在级"任务上(那些单靠截图就能完成的任务),拿掉音视频对Gemini 3.0 Pro几乎没有任何影响,成绩变化只有区区-0.3%。这证明了任务分类的科学性——研究团队确实准确区分了哪些任务真的需要音视频,哪些不需要。
然而,拆卸实验还发现了一个出乎意料的现象,研究团队将其命名为"跨模态干扰"。在那些截图就能完成的任务里,给Gemini 2.5 Flash和Qwen3-Omni提供完整的音视频输入,反而导致它们的成绩下降了。Gemini 2.5 Flash在"音视频存在级"任务上,有完整音视频时精确匹配率是40.8%,拿掉所有音视频后反而升到了49.9%。
这个发现很有意思:当屏幕信息已经足以做决策时,额外引入无关的环境声音和视频,非但没有帮助AI,反而让它"分心"了,产生了类似人类在嘈杂环境中注意力分散的效果。这个问题在当前模型架构中是一个真实存在的缺陷,也给未来的研究指明了需要改进的方向。
八、用语音说任务指令——双重音轨让AI更容易出错
日常生活中用户经常是用说话而不是打字来告诉AI要做什么。研究团队专门测试了一种更真实的场景:把任务指令从文字换成TTS合成语音(也就是用文字转语音技术生成的朗读音频),然后观察AI的成绩变化。
结果呈现出明显的不对称性。在"音视频存在级"任务上,把文字指令换成语音指令几乎没有影响——Gemini 3.0 Pro的精确匹配率变化仅有0.1%。单纯把一句指令从文字换成语音,对AI来说几乎是透明的。
但在"音视频关键级"任务上,同样的替换却造成了5.3%的成绩下滑。这两者之间的差异正好揭示了问题所在:在关键级任务里,AI的耳朵要同时处理两路音频——一路是任务指令的朗读声,另一路是来自手机环境的真实音频(比如正在播放的媒体声音、系统提示音)。当这两路声音同时涌入,AI就出现了"双音轨处理困难"——它在尝试理解指令的同时,跟踪重要的环境音信号的能力明显下降。这个发现对未来设计真正可用的语音控制手机助手来说,是非常重要的警示。
九、两个真实失误案例,让AI的困境一目了然
研究团队从最强的Gemini 3.0 Pro的失败案例里挑出了两个最具代表性的错误,用来直观说明当前AI的瓶颈在哪里。
第一个失误案例发生在Vimeo视频应用里。任务是:当视频里的旁白讲完一句话并停顿的时候,立刻点击"分享"按钮。步骤1时环境一片寂静,AI正确输出了"等待"动作;步骤2时旁白开始说话,AI再次正确输出"等待"。然而到了步骤3,旁白真的停顿了,这正是应该点击的时刻,但AI依然输出了"等待",没有识别出这个声学信号代表着"此刻应该行动"。动作类型错了,坐标自然也错了,两项得分全部挂零。这个案例完美展示了"瞬时听觉响应"的失败:AI能听到声音,但无法把声音状态的变化映射到对应的操作决策上。
第二个失误发生在Red Bull TV应用里。任务是:听到旁白开始说话时,先调出视频工具栏,再打开字幕设置。步骤1时画面只有汽车声音,AI正确等待;步骤2时旁白出现,AI正确点击屏幕调出工具栏;到步骤3,AI正确判断应该点击字幕相关的按钮,动作类型完全正确,然而预测坐标是(200, 2400),而正确答案是(1050, 2100)——偏差超出了字幕图标的实际范围。这个案例展示的是"空间定位失败":AI理解了该做什么,但在复杂视觉界面里精确定位目标的能力出现了偏差。动作类型得分,精确位置不得分。
这两种失误一个涉及时间感知,一个涉及空间定位,覆盖了多模态GUI任务中两类截然不同的核心挑战,也为后续研究提供了清晰的改进方向。
说到底,OmniGUI做的事情其实特别直接:它把人类使用手机时理所当然会用的"眼睛+耳朵+时间感",变成了一道真实的考题,然后发现现在最强的AI在这道题上还只能得六七成分。最顶尖的商业模型单步操作准确率有66.4%,但完整任务成功率只有33%;开源模型差距更大,任务成功率普遍低于6%。
这项研究的价值不在于告诉我们"AI不行",而在于它给出了一把精确的尺子——用这把尺子,研究者们能知道AI的"耳朵"在什么情况下会失灵,知道无关的背景噪音会让AI分心,知道同时处理两路音频会让AI的判断能力下降。有了这些具体的数字,未来的工程师就知道该在哪里下功夫。
归根结底,真正能帮你操作手机的AI助手,不该只是一个"看图说话"的程序,而应该像一个真正理解你所处环境的搭档——能听到你说的话,能感知到此刻屏幕上发生的变化,能在正确的时间做出正确的反应。OmniGUI标志着这条路上一个务实的起点。有兴趣深入了解的读者,可以通过arXiv编号2605.18758查阅完整论文。
Q&A
Q1:OmniGUI和现有手机AI测试平台最本质的区别是什么?
A:核心区别在于"同步实时多模态输入"。现有平台在AI每步操作时只提供截图,少数平台会在任务开始前给AI看一段参考视频。而OmniGUI在AI每一步操作时都同时提供当前截图、这一步时间段内的屏幕录像和同步音频,模拟真实手机使用中声音和动态画面随时出现的情况。
Q2:为什么给AI更多音视频信息反而会让它表现变差?
A:OmniGUI的消融实验发现了"跨模态干扰"现象。当一个任务靠截图就能完成时,额外提供无关的环境音和视频会让当前模型"分心",准确率反而下降。这说明现有模型在过滤无关信息方面存在缺陷,多余的感官输入会干扰决策而不是帮助决策。
Q3:OmniGUI涵盖了哪些手机应用类型?
A:OmniGUI覆盖29款常用应用,包含中英双语各约一半,涉及视频平台(Bilibili、YouTube、TED、Vimeo)、音乐应用(QQ Music、Spotify)、电商(淘宝、亚马逊)、社交媒体(微信、X/Twitter、Instagram)、打车出行(滴滴)和语言学习(多邻国)等多种日常应用场景。
