当前位置: 首页 > news >正文

【GitHub项目推荐--Page Agent:网页内的 GUI 智能体】⭐⭐⭐

简介

Page Agent 是由阿里巴巴开源的一款纯前端 GUI 智能体框架,其核心理念是“The GUI Agent Living in Your Webpage”。它颠覆了传统 Web 自动化需要依赖后端服务、无头浏览器或浏览器插件的模式,直接将 AI 智能体嵌入到网页中运行。用户通过自然语言指令(如“点击登录按钮”、“填写表单并提交”),即可控制网页界面完成复杂操作。该项目采用 MIT 协议开源,旨在为 SaaS 产品、后台系统提供零基建、一行代码即可集成的 AI Copilot 能力。

主要功能

  • 自然语言控制界面:用户使用自然语言描述任务,Agent 自动解析并执行点击、输入、选择、滚动等 DOM 操作。

  • 纯前端架构:无需 Python、无头浏览器或后端服务,直接在浏览器 JavaScript 环境中运行,数据不离开用户端。

  • 文本化 DOM 操作:摒弃了依赖截图和多模态模型的传统方案,通过解析和清理 DOM 结构发送给 LLM,速度快、成本低、精度高。

  • Human-in-the-Loop:提供可视化操作面板,展示 Agent 的思考过程,遇到歧义时主动询问用户确认,支持人工干预。

  • 多模型支持:支持 OpenAI、Claude、通义千问、Gemini 等任何兼容 OpenAI API 格式的模型,采用 BYOK(Bring Your Own Key)模式。

  • 跨页面扩展:提供可选的 Chrome 浏览器扩展(WIP),支持跨多个标签页的复杂工作流自动化。

安装与配置

方式一:CDN 快速体验(Demo)

在 HTML 中引入 Demo 脚本(含免费测试 API,仅限评估):

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.11/dist/iife/page-agent.demo.js" crossorigin="true"></script>

方式二:NPM 安装(生产环境)

通过 npm 安装包,并自行配置 LLM API:

npm install page-agent

配置参数

初始化 PageAgent 实例时需配置 LLM 连接参数:

  • model:使用的模型名称(如qwen3.5-plus)。

  • baseURL:LLM API 的基础地址(如 OpenAI 或 DashScope 端点)。

  • apiKey:你的 API 密钥。

  • language:界面语言(如zh-CN)。

如何使用

  1. 初始化:在页面 JavaScript 中引入并创建 Agent 实例。

  2. 执行指令:调用agent.execute()方法,传入自然语言指令。

  3. 观察执行:页面右下角会弹出操作面板,显示 Agent 的思考步骤(Plan)和执行状态(Running/Done)。

  4. 人工确认:当 Agent 无法确定唯一操作目标时(如页面有多个“提交”按钮),面板会高亮候选元素并等待用户点击确认。

典型指令示例

  • “点击登录按钮”

  • “在搜索框输入‘手机’并搜索”

  • “把表单里的姓名改成张三”

  • “找到价格最高的商品并加入购物车”

应用场景实例

实例 1:SaaS 产品 AI 副驾

场景:一个复杂的 ERP 或 CRM 系统,新用户需要经过繁琐的培训才能完成“创建客户档案”操作。

应用:集成 Page Agent 后,用户只需在聊天框输入“帮我创建一个名为阿里巴巴的新客户,类型为大客户,联系人李四”,Agent 自动导航到创建页面,填写所有字段并提交,极大降低学习成本。

实例 2:智能表单填写与数据录入

场景:财务人员每天需要将纸质报表数据录入到几十个字段的 Web 系统中,手动操作易错且耗时。

应用:财务人员口述数据“日期 3月22日,项目名差旅费,金额 1200”,Agent 自动定位对应输入框并填入数据,人员仅需最后核对提交。

实例 3:无障碍访问与语音控制

场景:视障用户或行动不便者难以使用鼠标精确点击网页上的小按钮或链接。

应用:结合语音识别技术,用户说出“打开收件箱”、“阅读第一封邮件”,Page Agent 直接操作 DOM 完成跳转和朗读,实现真正的零障碍 Web 交互。

GitHub 地址

项目仓库:https://github.com/alibaba/page-agent

http://www.jsqmd.com/news/518694/

相关文章:

  • 虚拟机锁定文件残留问题全解析:从.lck文件清理到权限修复
  • 基于COMSOL平台,探讨二氧化碳驱替甲烷模型:单场效应下的气体驱替效应研究
  • 【GitHub项目推荐--LobsterBoard:OpenClaw 生态的可视化仪表盘构建器】⭐⭐⭐
  • 告别MDK编译错误:ARM-Compiler V5离线安装包+环境配置全攻略(含历史版本下载)
  • 从《交通时空大数据分析》到实战:用transbigdata和geopandas处理上海地铁数据的完整流程
  • 算法复杂度的符号推导与渐进边界分析的技术7
  • 也许是一些好题 7
  • CCF-A vs 中科院分区:用Python爬虫分析JMLR等20本期刊的‘身份错位‘现象
  • 若依框架菜单权限配置避坑指南:从数据库到前端全流程解析
  • 计算机毕业设计:Python智能图书推荐与大数据平台 Spark Django框架 协同过滤推荐算法 书籍 可视化 数据分析 大数据 大模型(建议收藏)✅
  • Tsmaster工程:强大替代Canoe的国产软件,降低成本与节约开发时间的理想解决方案
  • COMSOL模拟下的枝晶生长与电化学沉积模型:典型成核、随机成核、均匀沉积及雪花晶形成过程的综合研究
  • 如何用clang-format定制你的C++代码风格?从LLVM到Google风格详解
  • c程序完整运行步骤
  • Windows下VSCode配置OpenSSL开发环境避坑指南(C语言版)
  • Spring AI + RAG 实战:从零构建医疗智能问答系统,准确率突破 92%
  • 用过才敢说! 全场景通用降AIGC平台 千笔·专业降AI率智能体 VS 万方智搜AI
  • 外卖前端Day1.2 (路由,vuex共享数据,typescript)
  • 吐血推荐!全学科适配的AI论文神器 —— 千笔AI
  • Vue项目实战:用Luckysheet打造企业级Excel在线编辑器(附完整代码)
  • Java对象内存分配全解:从new Student()到this关键字,一张图看懂对象在内存中的完整生命周期
  • 基于Python的仿淘宝系统毕设
  • VS2022+PCL环境配置避坑指南:vcpkg一键安装后这些细节要注意
  • Go 语言的“刻意贫穷“:为什么宁可写 30 行选项模式,也拒绝默认参数?
  • c语言第一次作业
  • Python豆瓣图书数据可视化平台 Flask框架 可视化 爬虫 书籍 大数据 机器学习 计算机毕业设计(建议收藏)✅
  • Seurat单细胞测序实战:从原始数据到细胞亚群注释的完整流程解析
  • Vue3 + TS项目上线后,如何用20行代码优雅地提醒用户刷新页面?
  • 批量读取Excel生成.mat矩阵
  • 基于Python的农业设备租赁系统毕业设计源码