【核心机制】Browser-Use 是如何工作的?深度解析其独特的 DOM 向量化与坐标映射
一、开篇:Web Agent 为什么这么难?
你有没有试过让 AI 帮你填个表单、订个机票?如果只是简单地把网页截图扔给大模型,让它自己“看懂”,结果大概率是翻车的——按钮点歪了、下拉框没识别出来、跨框架的元素直接找不到。
这其实暴露了 Web Agent 赛道长期以来的核心痛点:AI 擅长理解自然语言,但对网页结构这种半结构化的视觉信息却缺乏精准感知能力。市面上最常见的方案是“截图+视觉识别”——Anthropic 的 Computer Use 和 OpenAI 的 Operator 几乎都在走这条路:给模型一张网页截图,让模型输出要点击的坐标位置。但这条路有两个致命缺陷:截图信息密度低(一张高清截图对模型来说就是一堆像素),而且在复杂布局中容易产生坐标偏差。
Browser-Use 走了一条完全不同的路。它不靠截图死磕,而是把整个网页“翻译”成大模型能轻松理解的“结构化文本语言”,让 AI 像读代码一样读懂网页。这条技术路线让 Browser-Use 在短短一年多时间里从两个人的开源项目成长为 GitHub 82,000+ Star 的明星项目,获得 1700 万美元融资,并且在 MIT AI Agent Index 的 Online-Mind2Web 基准测试中,Cloud 版本达到了 97% 的准确率。
本文将以 DOM 向量化与坐标映射为切入点,深度拆解 Browser-Use 的架构设计、部署方案、竞品对比及安全风险,带你从源码层面彻底理解这个框架凭什么“赢”。
