当前位置: 首页 > news >正文

高德联合千问开源AGenUI:让Agent UI同时跑在iOS、安卓和鸿蒙上

近日,高德与阿里千问C端应用团队联合发布了AGenUI——这是行业首个覆盖iOS、Android、HarmonyOS三端的端云一体原生A2UI开源框架。开发者接入SDK后,即可将Agent的输出直接渲染为可交互的原生卡片,无需为不同平台分别写UI代码。

AGenUI基于Google A2UI协议构建,补全了"这些描述如何在手机上跑起来"的端侧原生渲染能力,两者结合推动AI应用从"文本式交互"走向"生成式UI交互"。目前已正式开源,访问genui.amap.com或GitHub即可参与。

一、痛点:Agent很聪明,但界面很原始

在大语言模型能力不断突破的今天,Agent早已不只是简单的问答机器——它具备了规划、记忆、工具调用等复杂能力。无论是LangChain、LangGraph还是AutoGen,开发者都能构建出足够"聪明"的智能体。

但与此同时,Agent与用户之间的交互方式,却始终停留在最基础的聊天框模式。

举个例子:当你想让Agent帮你完成一个多步骤操作(比如订机票),传统模式下Agent只能输出一段冗长的文字:"请选择出发日期、选择航班、填写乘客信息……"然后你得手动完成所有步骤,再把结果反馈给Agent。这种低效的交互方式,不仅让用户疲于应对,也浪费了Agent的智能算力。

问题的根源在于:Agent"知道"要什么样的界面,但没有办法直接生成并呈现给用户——它只能输出文本,把"搭界面"这件事推给用户自己完成。

这就是A2UI协议诞生的背景。

二、Google A2UI协议:让Agent"描述"界面,而不是"编写"界面

Google在去年年底提出了并开源了A2UI(Agent-to-User Interface)协议。这套协议定义了Agent与前端之间的通信标准,让Agent能够用统一的方式描述界面需求,前端则按照标准将其渲染为真实的UI组件。

A2UI的核心设计哲学是"声明式UI"——Agent只"描述",不"编码"。

传统的Agent交互中,若想实现界面展示,往往需要Agent生成HTML、JSX等前端代码,再由前端解析执行。这种方式不仅要求Agent具备前端编码能力,还会带来兼容性和安全性问题。

A2UI采用了完全不同的思路:Agent不再输出前端代码,而是输出一套结构化的JSON数据,用于描述"需要什么界面组件"“组件有什么属性”“组件之间的层级关系”。

比如,Agent想要一个姓名输入框,只需要输出这样的JSON:

json复制

{ "surfaceUpdate": { "surfaceId": "main", "components": [ { "id": "name", "component": { "type": "TextField", "props": { "label": "姓名" } } } ] } }

这段JSON清晰地告诉前端:需要在ID为"main"的界面上,添加一个文本输入框组件,标签为"姓名"。前端负责将这种结构化描述映射成真实的本地UI组件,至于用React、Vue还是其他框架实现,完全由前端决定,Agent无需关心。

A2UI的四大核心特性

1.声明式UI:Agent输出结构化JSON描述界面需求,不输出可执行代码

2.安全可控:Agent输出的是数据而非代码,前端只渲染"白名单组件",从根源上解决安全性问题

3.跨平台渲染:Agent只需描述"我要一个输入框+一个按钮",无需关心这个输入框在不同平台的技术实现

4.模型解耦:不绑定特定LLM,任何能够输出符合规范的JSON的模型都可以接入

2026年4月,Google正式推出A2UI 0.9版本,搭载共享Web核心库与官方React渲染器,同时完成对Flutter、Lit、Angular等主流开发框架的渲染器更新,并推出支持Python环境安装的Agent SDK,进一步降低了AI智能体接入与开发门槛。

三、A2UI的三层架构:协议层、渲染层、数据层

A2UI的核心架构分为三层,每一层都有清晰的分工:

1. 协议层(Agent-to-UI Communication)

这是A2UI的核心,定义了Agent与前端之间的通信格式和标准。Agent通过输出符合A2UI协议的JSON数据,向前端传递界面描述信息,这部分数据被称为"surfaceUpdate"(界面更新)。

一个典型的协议层示例——餐厅搜索界面:

json复制

{ "surfaceUpdate": { "surfaceId": "restaurant-search", "components": [ { "id": "search-form", "component": { "type": "Form", "children": [ {"type": "TextField", "props": {"placeholder": "搜索餐厅..."}}, {"type": "Button", "props": {"text": "搜索"}} ] } } ] } }

三个核心字段:surfaceId标识界面唯一ID;components是组件数组;每个组件包含type(组件类型)、props(属性)、children(子组件)等字段。

2. 渲染层(Framework-Agnostic Rendering)

渲染层的核心职责是将协议层的结构化JSON数据,映射成各个前端框架能够识别的本地UI组件。

渲染层是框架无关的——无论前端使用React、Vue、Angular还是SwiftUI、Compose,都可以实现A2UI的渲染逻辑:

平台渲染方式
WebReact / Angular / Lit
iOSSwiftUI
AndroidCompose
FlutterWidget

本质上,渲染层就是一个"翻译器",将A2UI协议定义的抽象组件,翻译成各个平台原生的具体组件。

3. 数据层(双向数据同步)

在实际交互中,前端也需要向Agent反馈用户操作的数据(比如用户输入的文本),同时Agent也可能需要向前端推送动态数据(比如搜索结果)。数据层通过"dataModelUpdate"(数据模型更新)字段来实现双向数据同步。

这意味着Agent与前端之间不仅能实现界面交互,还能实现数据的实时同步,为复杂交互场景(表单提交、动态列表、状态更新等)提供了坚实的技术支撑。

四、AGenUI:让A2UI在手机上真正跑起来

Google的A2UI协议定义了"模型如何描述界面",但并没有解决"这些描述如何在手机上跑起来"的问题——它主要面向Web端。

AGenUI正是来解决这个问题的。

高德与阿里千问C端应用团队联合发布的AGenUI,是行业首个覆盖iOS、Android、HarmonyOS三端的端云一体原生A2UI开源框架。它在Google A2UI协议的基础上,补全了移动端的端侧原生渲染能力。

AGenUI的端云一体架构

云侧:通过Agent Skill生成AI原生的A2UI JSON。这一步降低了大模型的Token消耗——Agent不需要输出大段文本说明,只需要输出结构化的界面描述;同时降低了输出不确定性——JSON格式比自然语言的界面描述更稳定、更易于解析

端侧:依托跨平台C++ Core统一处理协议解析、状态管理与布局计算,在iOS、Android和鸿蒙三端直接渲染为原生组件,从底层保证了多端体验一致

这是关键的一点:AGenUI不是通过JavaScript或WebView来实现跨平台,而是用C++核心在三个平台各自渲染原生组件。这意味着性能更高、体验更接近原生应用。

Streaming-first流式架构是AGenUI的核心设计之一:

“边生成边呈现”:组件到达即刻挂载,不需要等完整JSON生成完毕才开始渲染

最小化节点差分更新:只更新变化的部分,不重新渲染整个界面

独立线程异步渲染:渲染操作在独立线程执行,高频增量更新也不会卡主线程

这三个机制结合,确保了即使Agent在流式生成复杂界面时,用户也能获得流畅的交互体验——不会出现"等Agent说完才显示界面"的尴尬。

开发者资源

•内置22个基础组件,覆盖按钮、表单、卡片、列表等常见场景

•45项CSS属性,支持细粒度的样式定制

•Theme系统支持Design Token,模型只需输出语义描述(如"蓝色主色调"),端侧即可自动映射为符合品牌规范的具体样式

官网:genui.amap.com

GitHub:https://github.com/AGenUI/AGenUI

五、高德+千问:为什么是这个组合?

AGenUI的诞生,背后是"复杂场景"与"AI交互"的结合。

高德长期深耕地图导航、本地生活等真实世界复杂服务,积累了大量的多设备协同场景经验。地图应用是一个典型的"复杂场景"——它涉及实时数据更新、多层级界面、复杂的用户交互模式。高德在端侧工程能力上有深厚的积累,包括跨平台渲染、性能优化、原生组件开发等。

千问则在大规模AI应用入口、Agent交互与开发者生态上持续投入。千问的C端应用团队在AI交互探索上有丰富经验,对Agent与用户之间的交互模式有深入理解。

高德的端侧工程能力,加上千问的AI交互探索,才有了这套面向开发者的生成式UI基础设施。这个组合很合理:一个懂"如何把东西在手机上跑好",一个懂"如何让Agent和用户交互更顺畅"。

六、生成式UI的下一步:从文本到卡片

A2UI + AGenUI的结合,推动AI应用从"文本式交互"走向"生成式UI交互"。

传统的文本式交互:Agent输出文字说明,用户自己理解、自己操作。Agent很聪明,但用户必须"翻译"Agent的文字意图并转化为操作。

生成式UI交互:Agent直接生成并呈现可交互的界面组件,用户可以直接操作、实时反馈,形成真正的对话式交互。

一个典型的场景对比:

文本式:Agent说"请在下方选择您的出发城市,然后选择目的地城市,点击搜索按钮"——用户得自己找到下拉框、自己选择

生成式UI:Agent直接把城市选择器渲染出来,用户直接点击选择

这不只是体验的提升,更是Agent能力的真正释放。当Agent不需要用文字"教用户怎么操作",它可以把更多算力放在真正重要的决策和执行上。

目前,高德与千问C端应用团队已完成了生成式UI链路的Demo验证,将进一步推动其在真实应用场景中落地上线。

文章来源:AITOP100

原文链接:https://www.aitop100.cn/infomation/details/33810.html

http://www.jsqmd.com/news/818714/

相关文章:

  • 别再只盯着信噪比了!用Python+Matplotlib手把手教你画出不同调制方式的BER曲线(附代码)
  • 2026年机器物流托运全解析:成都搬家安能物流公司推荐/成都搬家物流托运公司/成都物流托运公司/成都行李物流托运/选择指南 - 优质品牌商家
  • Spring Bean生命周期|不背八股!面试深挖版(含实战代码+故障排查,秒甩竞争对手)
  • 2026年new衡水顶尖护坡网供应厂家的硬核实力与专业选择 - 2026年企业推荐榜
  • Python GUI开发终极指南:使用Pygubu-Designer快速构建专业界面
  • 乐山金口河邦智矿产品及川内同行供货服务排行:乐山钙砂/乐山钙砂厂/四川供应石英砂/四川供应钙砂/四川微硅粉供应/选择指南 - 优质品牌商家
  • 从代码到知识图谱:构建交互式源码可视化分析工具
  • 万能 (值类型 + 引用类型)
  • Windows热键冲突终极解决方案:一键定位占用程序的Hotkey Detective
  • 手机黑屏怎么导出微信
  • FakeLocation虚拟定位完全指南:3步实现Android应用级位置模拟
  • 逆向新手必看:手把手教你绕过猿人学第九题的sojson混淆与无限debugger
  • Windows 签名证书过期导致 Electron 应用无法安装怎么处理
  • 2026自贡自闭症儿童康复机构性价比选型技术指南:自贡特殊儿童发音训练、自贡特殊儿童康复培训、自贡特殊儿童情绪管理选择指南 - 优质品牌商家
  • 收藏!程序员小白必看:科大讯飞AI大模型赋能各行各业,降本增效新思路!
  • 2026西南彩钢棚厂家TOP5盘点:成都彩钢棚价格/成都彩钢棚制作/成都彩钢棚厂家/成都彩钢棚定制/成都彩钢棚搭建/选择指南 - 优质品牌商家
  • UE5实时渲染|沉浸式丛林探险Vlog,荒村木屋与未知警告的真实感暴击
  • 解密缠论量化:5步打造通达信智能交易系统
  • 模板结合 (HTML Usage)
  • Turbo模式究竟值不值得升级?20年AIGC架构师给出硬核答案:当并发请求>17qps时,ROI暴跌41%——附压测脚本与决策矩阵
  • 《Vibe Coding 入门宝典:非程序员的AI开发指南》一本改变软件生产方式的开源书
  • 2026年当下,为爱车选择改色车衣,为何专业施工服务商是关键? - 2026年企业推荐榜
  • 从4G到5G再到6G:分集与合并技术(SC/MRC/EGC)是如何演进的?一份给工程师的对比指南
  • 终极指南:geckodriver完整部署与Firefox自动化测试实战
  • 2025届最火的六大AI辅助写作神器推荐榜单
  • 【LangChain 】大模型调用双雄:流式输出vs 批量调用 —— 一文讲透怎么选
  • 2026年Q2川藏道路划线价格指南:西藏道路划线公司电话/西藏道路标线专业施工队/道路划线施工队联系方式电话/专业划线施工队/选择指南 - 优质品牌商家
  • 3分钟免费搞定Calibre电子书元数据:豆瓣插件完全指南
  • 长期使用Taotoken服务在模型稳定性与账单透明度方面的综合反馈
  • 2026年Q2安全体验馆生产厂家排行:烟热消防训练箱、真火消防训练箱、集装箱消防训练箱、交通安全体验馆、安全体验馆供应商选择指南 - 优质品牌商家