当前位置: 首页 > news >正文

Browser Use — AI驱动浏览器自动化的全新范式

什么是 Browser Use?

Browser Use 是一个开源的浏览器自动化工具生态,核心项目包括browser-harness—— 一个轻量级、可编辑的 CDP (Chrome DevTools Protocol) 控制层,让 AI 能够直接操控你的真实 Chrome 浏览器。

它的设计理念是:“你将永远不再亲自操作浏览器”。AI 代理通过截图、坐标点击和 JS 执行来操控页面,仿佛给浏览器装上了眼睛和双手。

为什么选择 Browser Use?

1. 极简架构

核心代码只有约 1000 行,分布在 4 个文件中。没有冗余的抽象层、重试框架或复杂配置。

2. 截图优先的交互模式

传统自动化工具(Selenium/Playwright)要求你找到选择器才能点击。Browser Harness 反其道而行之:

  • 先截图→ 看像素坐标
  • 坐标点击click_at_xy(x, y)→ 穿透 iframe/阴影 DOM/跨域
  • 再截图验证结果

3. 连接真实 Chrome

不需要启动新的浏览器实例。直接连接你正在使用的 Chrome,登录态、Cookie、扩展全部保留。

4. 原始 CDP 能力

可以直接调用任意 Chrome DevTools 协议方法,没有封装损耗。

快速上手

安装

Setup prompt

Set up https://github.com/browser-use/browser-harnessforme. Read`install.md`and follow the steps toinstallbrowser-harness and connect it to my browser.
gitclone https://github.com/browser-use/browser-harnesscdbrowser-harness uv toolinstall-e.

连接浏览器

  1. 在 Chrome 地址栏输入chrome://inspect/#remote-debugging
  2. 勾选 “Allow remote debugging for this browser instance”
  3. 运行测试:
browser-harness<<'PY' new_tab("https://example.com") wait_for_load() print(page_info()) PY

第一个脚本

browser-harness<<'PY'new_tab("https://www.baidu.com")wait_for_load()capture_screenshot("baidu.png")click_at_xy(500,300)wait_for_load()print(page_info())PY

主要能力

能力说明
页面导航打开新标签页、切换标签页、跳转 URL
截图识别截取页面截图,通过像素坐标点击
坐标点击click_at_xy(x, y) 穿透 iframe/Shadow DOM
JS 执行在页面中运行 JavaScript
HTTP 请求http_get(url) 直接发请求,不走浏览器
原始 CDP调用任意 Chrome DevTools 协议
云浏览器连接 Browser Use 云端隔离浏览器

设计哲学

Browser Harness 坚持以下原则:

  • 坐标点击优先:通过Input.dispatchMouseEvent在合成层级发送鼠标事件,穿透 iframe/阴影 DOM/跨域限制
  • 连接真实浏览器:不启动新实例,直接复用用户的 Chrome
  • 核心保持简洁:不添加重试框架、会话管理器、配置系统
  • 自我进化:代理在执行中发现缺失的工具函数时,可以直接写入agent_helpers.py

总结

Browser Use 代表了浏览器自动化的新范式——不再是"找选择器→点击",而是"截图→坐标点击→验证",更接近人类操作浏览器的方式。配合 LLM 的视觉能力,可以处理任何复杂度的 Web 任务。

  • GitHub: https://github.com/browser-use/browser-harness
  • 官网: https://browser-use.com

这篇介绍博客也是使用了Browser Use完整流程发布的,然后我再进行编辑修改的;


安装到发布文章接近300w token消耗还是挺大的,差不多3毛钱左右

http://www.jsqmd.com/news/926339/

相关文章:

  • Word文档样式一致性检查与批注批量导出工具(Python实现)
  • 保姆级教程:在Linux上从零配置TongLINKQ 8.1.15.2客户端,实现与服务端通信
  • 光学加密技术如何革新音频安全防护
  • 2026 青岛纹眉门店实地体验测评:多家门店综合实力盘点 - 小艾信息发布
  • JDK8 Optional详解入门:彻底告别Java空指针异常
  • Beyond Compare 5逆向工程:RSA非对称加密授权机制深度解析与密钥生成器实战
  • Cora和Citeseer数据集上可直接运行的GCN链路预测代码包(含预处理、训练与评估)
  • 2026年台州税务代理公司选对=合规高效 企赢税务智能财税推荐(含联系方式) - 本地品牌推荐
  • 2026年Trae与Claude Code优缺点对比:深度横评解析
  • MATLAB近场动力学三模型对比包:含稳定化实现、零能模式修正与能量/位移可视化
  • 运维排查手记:一次用户被锁定的故障,我是如何用faillock命令快速定位并解决的
  • Java TCP聊天室完整实现:含可运行工程、操作视频与详细课程设计文档
  • STM32F103 RGB灯PWM调光工程(KEIL环境,J-Link/ST-Link双调试器支持)
  • 2026 年郑州化妆品柜展柜厂家技术与服务分析报告
  • STM32F103扫地机器人实战工程:FreeRTOS多任务调度+IAP远程升级+电池与传感器全链路管理
  • 十年 PM 走心总结:职场管理者的底层逻辑
  • 告别Ubuntu 22.04默认Dock:这几个gsettings命令和Gnome扩展让你效率翻倍
  • 微信小程序人脸实时定位源码(含相机调用、检测框绘制与多页面示例)
  • 告别系统升级焦虑:Ubuntu 22.04 LTS 到 24.04 LTS 保姆级升级指南(含 do-release-upgrade 详解)
  • C++如何与C语言混合编程_在C++项目中调用C库函数的extern “C“方法
  • 2026年苏州地区口碑良好卫生间防水维修服务机构3家专业梳理分析 专业防水公司排名推荐(2026年6月防水补漏最新TOP权威排名) - 鼎壹万修缮说
  • Matlab版双强度GS相位恢复工具包:含仿真、迭代求解与标准流程脚本
  • PHP人脸识别与图像AI处理集成
  • 告别WinSCP和8个盘限制:用RaiDrive把阿里云盘、服务器SFTP全挂到Windows资源管理器
  • Python算法基础篇之斐波那契数列详解
  • MATLAB版LMS自适应滤波实操包:带运行录像、可调参数源码与收敛效果可视化
  • 别再踩坑了!Ubuntu 22.04 上 Zabbix 6.0 保姆级安装与配置全记录(含MySQL 8.0适配)
  • 量子神经网络与经典计算的融合设计与实践
  • 计算机2级考试——解题步骤
  • CASME2微表情识别工具:支持摄像头实时捕捉、单图识别与视频逐帧分析