当前位置：首页 > news >正文

腾讯AI Lab的WebVoyager如何像真人一样浏览网页？多模态Agent实战解析

news 2026/7/5 4:36:41

腾讯AI Lab的WebVoyager如何像真人一样浏览网页？多模态Agent实战解析

当你在亚马逊搜索商品时，是否想过背后可能是一个AI在替你完成比价、筛选和下单的全流程？腾讯AI Lab最新开源的WebVoyager项目，正将这种想象变为现实。这个能像人类一样"看"网页并自主决策的多模态Agent，在300个真实网站任务测试中，以55.7%的成功率超越了当前顶尖的GPT-4（All Tools）方案。本文将深入拆解其技术架构中的创新设计，揭示多模态Agent处理网页任务的底层逻辑。

1. 多模态Agent的核心技术架构

WebVoyager的创新始于对传统Agent局限的突破。现有方案大多将网页简化为HTML文本流，而人类浏览网页时依赖的视觉布局、色彩对比等关键线索却被完全忽略。腾讯团队构建的双通道输入系统，让AI首次获得了接近人类的网页感知能力。

1.1 视觉-文本融合的观察系统

在每次交互循环中，Agent同步获取两种数据：

视觉通道：1920×1080分辨率屏幕截图，包含CSS渲染后的真实页面布局
文本通道：经过处理的DOM树信息，包含关键元素的类型、层级关系和文本内容

# 伪代码展示观察数据生成流程 def get_observation(): screenshot = take_screenshot() # 使用Selenium捕获当前页面 dom_tree = parse_accessibility_tree() # 提取结构化DOM信息 annotated_img = add_element_labels(screenshot, dom_tree) # 添加交互元素标注 return {"visual": annotated_img, "text": dom_tree}

这种设计使得Agent既能"看到"按钮的颜色和位置，又能"读懂"链接的文字描述，大幅提升了在复杂页面中的定位准确度。

1.2 仿生决策机制

人类浏览网页时的操作模式具有明显特征：

视线快速扫描关键区域（如导航栏、搜索框）
根据任务目标动态调整关注点
对操作结果进行即时验证

WebVoyager通过三层架构模拟这一过程：

层级	功能	实现方式
感知层	提取视觉/文本特征	CLIP+Vison Transformer双编码器
认知层	理解当前页面状态	多模态大模型融合分析
执行层	生成操作指令	动作预测头+置信度校验

提示：在测试中发现，当页面包含浮动广告时，纯文本Agent的失误率比多模态版本高3.2倍，证明视觉线索对动态内容的处理至关重要。

2. 端到端训练的关键突破

传统网页自动化工具依赖预先编写的XPath或CSS选择器，而WebVoyager的创新之处在于实现了从原始输入到操作指令的端到端学习。这种范式转变面临着三大技术挑战。

2.1 真实环境交互难题

与静态数据集不同，真实网站具有三个不确定性：

页面加载时间波动（0.5-8秒不等）
动态内容随机出现（如弹窗广告）
AJAX异步更新机制

项目组设计的自适应等待策略包含：

网络请求监控
DOM变化检测
视觉元素稳定性判断

// 实际使用的页面稳定性检测逻辑 function isPageStable() { const prevSnapshot = takeDomSnapshot(); return new Promise((resolve) => { let stableCount = 0; const checkInterval = setInterval(() => { const currentSnapshot = takeDomSnapshot(); if(compareSnapshots(prevSnapshot, currentSnapshot) < 0.01) { stableCount++; if(stableCount >= 2) { clearInterval(checkInterval); resolve(true); } } else { stableCount = 0; } prevSnapshot = currentSnapshot; }, 500); }); }

2.2 多模态对齐训练

要使模型理解截图与DOM树的对应关系，团队开发了对比学习预训练流程：

收集100万组网页(截图, DOM)数据对
使用双编码器提取特征向量
通过InfoNCE损失函数拉近匹配对距离

实验数据显示，经过对齐训练的模型在元素定位任务上的准确率提升27%，特别是在处理以下场景时表现突出：

图像按钮无ALT文本
动态生成的内容区块
自定义CSS绘制的交互控件

2.3 动作空间设计

人类浏览网页的基础操作看似简单，但转化为离散动作集时需要考虑边界情况。WebVoyager定义了9类原子操作：

点击(元素ID)
输入(元素ID, 文本)
滚动(方向, 像素数)
等待(条件/时间)
返回()
跳转(URL)
提交表单()
答案生成()
终止任务()

注意：实际测试中发现，滚动操作需要特别处理惯性滚动效应，否则会导致元素定位偏移。解决方案是加入200ms的滚动稳定等待期。

3. 评估体系的创新设计

传统Agent评估面临两大困境：人工验证成本高昂，自动化评估缺乏可靠性。WebVoyager项目构建了三级评估体系，为多模态Agent的测试提供了新范式。

3.1 混合评估数据集

团队精心构建的测试集包含三个维度：

来源多样性：15个高频使用网站
任务复杂度：
- L1：单页面可完成（如词典查询）
- L2：需要2-3步导航（如商品比价）
- L3：跨站多条件筛选（如航班+酒店套餐）
答案类型：
- 封闭式（特定数值）
- 开放式（描述性答案）

下表展示典型任务示例：

网站	任务类型	示例任务	评估难点
Google Flights	L3	"查找下周北京到纽约最便宜的中转航班，中转时间<4小时"	多条件过滤
GitHub	L2	"查找最近一周stars增长最快的Python项目"	动态排序
BBC News	L1	"今日科技版头条新闻的配图说明是什么"	视觉定位

3.2 基于GPT-4V的自动评估器

人工评估300个任务需要约45人时，团队开发的自动评估方案包含：

轨迹回放：保存所有操作步骤的截图序列
结果验证：使用GPT-4V比对任务要求与最终答案
过程分析：检查关键步骤的决策合理性

验证实验显示，该评估器与人工判断的Kappa一致性系数达到0.7，在保证可靠性的同时将评估成本降低85%。具体实现时需要注意：

提供足够的上下文截图（通常最后3步）
明确任务要求的结构化描述
设置答案验证的严格标准

# 评估提示词关键部分 evaluation_prompt = """ 任务要求: {task_description} Agent最终答案: {agent_answer} 请执行以下判断: 1. 答案是否完全满足任务所有要求? [是/部分/否] 2. 关键步骤截图是否显示正确的操作路径? [是/部分/否] 3. 是否存在明显的逻辑错误? [列出具体问题] 评估标准: - 完全正确: 所有子任务100%完成 - 部分正确: 主要任务完成但遗漏次要条件 - 错误: 关键信息缺失或错误 """