当前位置：首页 > news >正文

又一个被低估的AgentSkill 诞生了！

news 2026/7/18 6:04:35

又一个神级 Agent Skill 诞生了！

这两年，AI Agent 的能力进化得越来越快。

从最开始只能聊天、写代码，到现在开始真正接管浏览器、操作网页、执行流程，很多人已经意识到：下一阶段的 AI，不只是“会思考”，而是“会干活”。

但现实问题也很明显。

真正把 AI 接进真实网页后，你会发现理想很丰满，现实却到处是坑。

AI Agent 一碰网页，为什么总在最后一步翻车？

很多人第一次尝试用 AI Agent 做网页自动化时，都会有一种“看起来很智能，但真正实战却不太行”的感觉。

比如网页刚打开，就突然弹出 Cloudflare 验证；表单填写到一半，按钮无法点击；账号明明登录成功，页面跳转后却又掉了登录态；任务运行了十几分钟，最后只返回一句“执行失败”。

而今天要说的这个 GitHub 开源项目 —— browser-act/skills，核心目标就是解决这些真实网页环境中的自动化问题。

项目地址：
https://github.com/browser-act/skills

这个项目到底是什么？

简单来说，BrowserAct Skills 可以看成是一套专门提供给 AI Agent 使用的“浏览器技能系统”。

它并不是重新做一个 AI 聊天机器人，而是希望让现有的大模型工具，真正拥有操作真实网页的能力。

根据官方介绍，这套系统能够帮助 AI 完成网页浏览、按钮点击、文本输入、页面截图、信息提取、会话维持等操作，同时重点增强了对真实网站环境中各种复杂情况的处理能力。

例如反爬机制、验证码、登录状态失效、页面重定向等问题，都做了针对性优化。

目前这个项目在 GitHub 上已经获得大约 1.4k Star 和 34 Fork，采用 MIT 开源协议，主要基于 Python 开发。

它最核心的两部分能力是什么？

整个仓库里，最关键的部分主要有两个：

一个是 browser-act，另一个则是 browser-act-skill-forge。

其中 browser-act 更像是一个网页自动化执行器。
它能够直接驱动真实 Chrome 浏览器，让 AI 像真人一样完成网页导航、点击按钮、输入文本、截图以及读取页面状态等动作。

官方示例中提供了 navigate、click、input、state、screenshot 等操作命令，非常适合处理一次性的网页自动化任务。

而另一个 Skill Forge，则明显更偏向“长期复用”。

它不仅仅是执行任务，而是允许 AI 先去探索某个网站的结构与逻辑，然后自动生成一套可复用的技能文件，包括 SKILL.md 与对应 Python 脚本。

换句话说，同一种网站的数据提取逻辑，不再需要 Agent 每次重新摸索。

这意味着什么？

过去很多 AI Agent 最大的问题，并不是“不会执行”，而是“每次都要重新学习”。

而 Skill Forge 的价值，本质上是在让 AI 开始沉淀经验。
第一次探索网站可能很慢，但后面就能直接复用已有技能，大幅降低重复操作成本。

这也是为什么，越来越多人开始把它视为 AI Agent 真正走向“流程化执行”的关键一步。

为什么它特别适合网页数据抓取？

传统的数据采集方案，往往严重依赖 CSS Selector 或接口规则。

问题是，只要网页结构稍微变化一下，或者登录逻辑改了、分页机制变了，原来的脚本很容易直接报废。

而 BrowserAct Skills 的思路则完全不同。

它不是单纯依赖页面结构，而是把网页操作拆分成更加稳定、可复用的“技能模块”。

比如：

抓取电商商品数据、监控社交媒体内容、提取本地商家联系方式、获取 YouTube 字幕、追踪新闻热点等，都可以被封装成独立技能。

项目 README 中已经提供了一些现成技能案例，例如：

Amazon ASIN Lookup Skill、Amazon Best Selling Products Finder、Google News API Skill、Google Maps API Skill、YouTube Transcript Extractor 等。

覆盖的领域包括电商、地图、本地商业、新闻以及视频内容处理等多个方向。

它对开发者最大的价值是什么？

对于开发者来说，这个项目真正有价值的地方，在于它大幅降低了“AI 操作网页”的工程复杂度。

以前如果你想让 AI 自动完成网页任务，通常需要自己处理很多麻烦事：

比如写 Playwright、维护浏览器指纹、管理登录状态、设计异常重试逻辑、清洗 HTML，再把数据交给大模型处理。

整个链路不仅复杂，而且维护成本极高。

但现在，BrowserAct Skills 已经把其中大量通用能力提前封装好了。

官方重点提到的一些能力包括：

Anti-Detection Stealth、真实 Chrome 控制、并发浏览器执行、自动验证码处理、代理模式、隐私浏览，以及减少无效 HTML 内容传输等。

这样不仅可以降低 Token 消耗，还能提升整体执行效率。

可以和哪些 AI 工具一起使用？

BrowserAct Skills 并不是绑定某一个 AI 平台使用的。

根据官方说明，它目前已经能够与 Claude Code、Cursor、VS Code、OpenCode、OpenClaw、Codex、Gemini CLI 等工具协同工作。

安装方式也比较简单，例如：

npx skills add browser-act/skills --skill browser-act

如果需要使用技能自动生成能力，则可以执行：

npx skills add browser-act/skills --skill browser-act-skill-forge

哪些人会特别需要它？

如果你只是偶尔让 AI 总结网页内容，那么这个项目可能并不是刚需。

但如果你长期在做：

数据采集、竞品监控、销售线索挖掘、电商分析、新闻追踪，或者正在尝试把 AI Agent 接入真实业务流程，

那么 BrowserAct Skills 的价值会非常明显。

因为它解决的核心问题，并不是“AI 能不能写代码”。

而是：

AI 到底能不能稳定地在真实网页环境里完成任务。

这其实才是 AI Agent 真正走向生产力工具时，最难的一步。

总结

browser-act/skills 的出现，其实透露出一个很明显的趋势：

AI Agent 正在从“会聊天、会写代码”，逐渐升级成“能够真正执行任务”的工具。

而网页世界，本来就是自动化里最复杂的战场之一。

验证码、登录状态、反爬机制、动态加载、页面跳转……这些问题，过去一直都是自动化系统最头疼的部分。

而 BrowserAct Skills 所做的事情，本质上就是把这些复杂问题，沉淀成一套可以反复复用的浏览器技能。

让 AI 不再每次都从零开始“摸着石头过河”。

对于真正想把 AI Agent 用到真实业务场景里的开发者来说，这类项目，未来可能会越来越重要。

查看全文

http://www.jsqmd.com/news/882562/

2026太原黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

虚拟机尝鲜首选：用VMware/VirtualBox快速体验Kubuntu 23.04完整流程（含镜像下载加速与工具安装）

2026九江黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

Linux下JMeter压测调优全指南：从命令行到分布式实战

2026贺州黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026晋城黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026鹤壁黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

Python开发在数据分析领域的应用

别再傻傻连节点了！UE5主材质参数化保姆级教程，5分钟搞定砖墙材质实例

2026泰安黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026酒泉黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026晋中黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

保姆级避坑指南：在Ubuntu 20.04上搞定VINS-Fusion环境（含手机摄像头数据适配）

Java SE与Kubernetes微服务：应对在线教育平台的挑战

2026开封黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026衡水黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026荆门黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

Unity3D UMP插件播放视频报错？手把手教你搞定VLC依赖和‘LibVLC not found’问题

2026衡阳黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

2026昆明黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

从《双人成行》到你的项目：拆解Unity物理组件如何塑造游戏手感

从游戏开发视角看林火模拟：如何用Unity/UE引擎打造逼真的森林火灾可视化系统

机器学习在轴子类粒子探测中的应用：基于XGBoost的伽马射线能谱分析

2026达州黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

3步搞定Elsevier论文审稿追踪：科研工作者的免费效率神器

Keil µVision调试器变量记录方法详解

在Ubuntu 20.04上从源码编译Spconv 1.2.1：一份给点云感知开发者的避坑指南

2026呼和浩特黄金铂金白银彩金回收口碑榜出炉：这五家店稳居前列，靠谱又放心 - 前途无量YY

3分钟快速上手：免费开源游戏加速工具OpenSpeedy完全指南

六音音源修复版：3分钟解决洛雪音乐播放问题的终极指南 [特殊字符]

又一个神级 Agent Skill 诞生了！

这两年，AI Agent 的能力进化得越来越快。

从最开始只能聊天、写代码，到现在开始真正接管浏览器、操作网页、执行流程，很多人已经意识到：下一阶段的 AI，不只是“会思考”，而是“会干活”。

相关文章：