AI手机新突破!端侧智能体提速1.6倍,纯软件框架
AI助理正在加速走进我们的手机和电脑,帮我们自动回复邮件、安排会议日程。
人们总是希望这些助理不仅聪明,还能把数据留在本地以保护隐私。
但现有的端侧设备运行这些大模型智能体时,往往慢得让人失去耐心。
由韩国科学技术院(KAIST)研究团队开发的一项名为 Agent-X 的纯软件框架,在不需要更换任何新硬件的前提下,直接将端侧大模型智能体的端到端运行速度提升了1.61倍,且完全无损任务精度。
Agent-X 是首个系统性解决端侧AI智能体全流程延迟瓶颈的纯软件加速框架。它首次揭示了端侧Agent中预填充(Prefill)和解码(Decode)阶段均为关键瓶颈的独特特性。
这项突破性的研究成果已被 MobiSys 2026(第24届美国计算机协会移动系统、应用与服务国际会议)正式接收。
研究团队深入剖析了端侧设备运行AI智能体时的底层计算瓶颈,找出了让系统变慢的真正元凶,为预填充和解码两个计算环节量身定制了加速方案。
端侧智能体的迟缓症结
把大语言模型装进云端巨大的服务器机房里,和把它塞进一台轻薄的笔记本电脑里,面临的计算挑战截然不同。
模型生成回答的过程通常分为两步,前一步叫预填充,负责阅读并理解用户输入的提示词(Prompt);后一步叫解码,负责逐字逐句生成最终的回答。
云端服务器拥有庞大的算力和极高的内存带宽,预填充阶段极其迅速,绝大部分时间都花在了解码生成环节。
把相同的任务放到手机或个人电脑等端侧设备上时,情况发生了变化。
工程师在设计智能体工作流(Agentic workflows)时,为了约束模型的行为并教它如何使用外部工具,会给它输入极长的提示词。这些提示词包含了长篇大论的系统指令、工具使用说明以及大量的示例演示。
云端顶配服务器芯片如英伟达 H200 的内存带宽高达每秒4800GB,算力接近2000 TOPS。我们手头的端侧芯片比如高通骁龙 X Elite,算力只有45 TOPS,带宽仅为每秒135GB。
算力和带宽的巨大落差,导致端侧设备在处理智能体任务那长达数千个Token的输入时,算力瓶颈彻底暴露。
研究团队对 TinyAgent 系统执行了1022次真实的测试用例,详细记录了每个环节的耗时情况。
数据呈现出一个反直觉的事实,预填充和解码两个阶段在端侧的耗时已经持平。以往那种只盯着解码环节做优化的云端策略,在端侧环境中完全失效。工程师应该同时向预填充和解码两端发力,才能把端侧智能体的运行速度提上来。
重构提示词消除预填充瓶颈
业界其实有一种非常成熟的技术叫做前缀缓存(Prefix caching),也就是把模型以前阅读过的、固定不变的提示词内容提前计算好并存下来,下次遇到相同的开头直接拿来复用,从而省去大量的重复计算。
智能体系统在执行任务时,会根据用户的具现需求动态调取不同的工具。
用户想发邮件,系统就把邮件相关的工具说明和案例插进提示词里;用户想查日历,系统就换上日历工具的说明。
这种动态拼接的做法,导致每次输入给模型的提示词在前段就出现了差异。前缀缓存机制要求前后两次的输入必须有一长串完全一模一样的开头,一旦前排某个词变了,后面的缓存就算一模一样也全部作废。
研究团队开发了名为 PromptWeaver 的核心组件,专门解决这种动态变化带来的缓存失效问题。
团队将系统里所有可用工具的说明文档全部固化下来,变成一段超长的静态文本放在提示词最前面。这样一来,动态变化的部分被大幅后移,前缀缓存机制得以充分发挥作用。
针对工具使用示例的动态变化,研究团队对系统训练数据集进行了深度的共现度(Co-activation)分析。
他们发现特定主题的工具往往会扎堆出现,比如处理联系人的工具经常和处理邮件的工具一起被调用。
团队据此利用非负矩阵分解算法,将工具划分为8个高频共现的工具簇,并按照主题对它们进行固定排序。
这些经过固定搭配组合的工具示例,其计算结果被提前生成键值缓存(KV cache)并存储在设备的固态硬盘里。当用户提出需求时,系统只需像查字典一样,从硬盘里把对应的预计算缓存调入内存即可。仅需占用6.26GB的硬盘空间,就能覆盖日常使用中74.4%的工具示例组合。
通过这种重构,系统输入中无法被缓存的动态词块大幅减少了88.9%,彻底解放了预填充阶段的算力瓶颈。
绕开多Token税的解码方案
预填充阶段跑快了,解码阶段也不能拖后腿。云端大模型常用的加速技术叫推测解码(Speculative decoding),找一个体量极小、跑得飞快的草稿模型在前面探路,一口气生成好几个词,然后再让主力大模型做一次性校验。
把这套方案搬到端侧设备上时,遇到了被称为多Token税(Multi-token tax)的严重阻碍。
端侧设备主要针对单批次任务进行硬件优化,主力模型一次性校验多个Token的开销,甚至比它老老实实自己逐个生成还要慢。草稿模型的选择也陷入了两难境地。
上表详细记录了不同草稿模型在端侧的表现。参数量只有几千万的小模型,生成的准确率仅有2%,根本猜不对主力模型想说什么;参数量达到10亿级别的草稿模型准确率上去了,但它自身跑得太慢,综合算下来不仅没提速,反而让系统整体速度下降了。
研究团队敏锐地捕捉到了智能体工作流的一个隐藏特性。
模型在解码阶段生成的行动计划,往往高度模仿提示词里提供的示例模板。它们就像在做填空题,照抄示例里的函数名和格式,仅仅替换掉里面的具体参数。
基于这一发现,研究团队抛弃了需要神经网络计算的草稿模型,开发出名为 ExSpec 的轻量化解码组件。
系统在接收到用户请求时,会利用现有的提示词流在内存中临时构建一张极小的 n元语法(n-gram)查找表。这张表记录了提示词里哪些词经常跟着另外几个词出现。
系统在生成新词时,直接去这张表里查历史规律来当草稿。查找表的读取速度极快,开销几乎为零。
更绝妙的是,系统只在查找表里确切拥有匹配记录时才发起推测解码。遇到没见过的生僻词汇,它会立刻切换回传统的逐字生成模式。
这种被称为选择性解码的策略,完美避开了多Token税带来的无谓损耗。
数据印证了这项设计的精妙。采用选择性解码策略后,规划器(Planner)环节的草稿准确率翻了一倍,裁决器(Arbiter)环节的准确率更是提升了近三倍。
这套机制用极简的查表逻辑替代了复杂的神经网络预测,把端侧的解码速度拉高了1.73倍。
研究团队将这两项技术融合成完整的 Agent-X 框架,并在搭载苹果 M4 Pro 芯片的设备上运行了真实的高强度智能体测试。
双管齐下的威力立刻显现,最终实现了高达1.61倍的端到端提速。以往需要漫长等待的日历规划、多步骤邮件回复任务,得到了大幅加速。
最让工程师和开发者感到欣慰的是,所有这些提速都没有牺牲哪怕万分之一的任务准确率。
整个框架以纯软件的形式运行,丝滑嵌入到了诸如 TinyAgent 这样成熟的端侧应用生态中,不需要花一分钱去升级设备内存或是购买更强劲的加速卡。
Agent-X 框架用最轻巧的代码逻辑,解开了最棘手的硬件枷锁,让私密、安全、全天候在线的智能体向普通人的设备里迈进了一大步。
参考资料:
https://arxiv.org/pdf/2605.10380
https://www.sigmobile.org/mobisys/2026/accepted_papers/
