当前位置：首页 > news >正文

LLM Agent 怎么测评：IBM+Yale 评测综述与 2026 三条新范式

news 2026/6/22 10:21:13

摘要

静态 LLM 评的是「答对没有」；Agent 评的是「在动态环境里，能不能通过一连串决策把事做成」。IBM Research 与 Yale 等在2026 年 4 月更新的 v2 综述（arXiv:2503.16416）把 Agent 评测拆成五层：核心能力（规划 / 工具 / 自反思 / 记忆）→ 应用 benchmark（Web / SWE / 科研 / 对话）→ 通用 Agent → benchmark 设计维度 → 开发者评测框架（LangSmith、Langfuse 等）。综述指出行业正从「静态、易饱和的单点 benchmark」转向更真实、可持续更新的 live evaluation，并强调必须解耦backbone LLM与Agent Harness（脚手架）的贡献。2026 年三篇跟进工作则从三个方向补洞：AgentAtlas（2605.20530）提出控制决策六态 + 轨迹失败九类 taxonomy，证明「只看最终成功率」会系统性误导；Claw-Eval（2604.06132）用三通道轨迹审计 + 300 人工校验任务，显示仅看输出的 LLM Judge 会漏掉44%安全违规；LiveAgentBench（2603.02586）以104个真实场景、374条任务动态评测，最好商业 Agent（Manus）成功率仅35.29%，人类可达69.25%。本文以综述为骨架，用三篇 2026 论文说明「2026 年该怎么评 Agent」。

Survey on Evaluation of LLM-based Agents

一、为什么评 Agent 不能沿用评 LLM 的老办法？

LLM 评测的主流范式是：给定输入，检查输出是否匹配标准答案或 rubric。Agent 则多了一步——它要在动态环境里做序列决策：选工具、改状态、多轮对话、失败后恢复。Yehudai 等（IBM Research + Yale）在综述开篇点明：评测对象从「文本生成质量」变成「任务完成路径 + 中间行为是否合规」。

三个现实痛点在 2025–2026 被反复验证：

•成功率虚高：综述附录 E.2 称 SWE-bench Verified Top 性能已约80%（接近饱和）；WebArena 动态环境 Top 约74.3%（2026 年 2 月提交）。但 SWE-bench Pro 在41个仓库、1865个经人工校验的长程任务上，正文 §3.2 仍写 Pass@1低于 25%（附录 E.2 则更新称 Pro SOTA 约46%——需随模型迭代注明时间戳）——说明「修 familiar bug」与「做 hours 级多文件改动」不是同一回事。
•脚手架混淆模型能力：AgentAtlas 报告，OSWorld 上同一 agent-s3 + GPT-5 组合，单从次运行切到 best-of-10，分数可从65.6%涨到69.9%；CCBench 上 Claude Code 不同版本跨度达50.8个百分点。排行榜越来越像「系统工程分」，而非纯模型分。
•静态 benchmark 快速饱和：BFCL 从 v1 演进到 v4、SWE-bench 衍生 Verified / Pro 家族，本质都是在对抗数据污染、任务过易、评测协议过松。

Yehudai 综述的 Figure 1 用一棵「能力 → 应用 → 通用 → 维度 → 工具链」的树，把 2023–2026 初上百篇 benchmark 与评测平台挂到同一坐标系上——后文所有「该用哪个 benchmark」的讨论，都建议先在这张地图里定位。

图 1：评测综述的五层结构（能力 / 应用 / 通用 Agent / benchmark 维度 / 开发者框架）。来源：原论文 Figure 1。

1.1 评测对象：LLM、Harness、还是整个系统？

综述 v2 特别强调Decoupling LLM & Harness Evaluation。一次 Agent 跑分至少混了三样东西：

组件	是什么	单独评测的意义
Backbone LLM	GPT / Claude / Qwen 等基座	隔离「模型本身」的推理与工具调用能力
Agent Harness	LangGraph / 自研编排、记忆、重试策略	隔离「框架与脚手架」带来的增益或损耗
工具与环境	MCP Server、Docker 沙箱、浏览器	隔离「外部接口稳定性」对分数的影响

Harbor、Exgentic、CUBE（2603.15798）等 2026 工作正试图用统一协议让同一 harness 跨 benchmark 复跑——这是框架测评走向可复现的前提。

微信号iamxxn886· 备注「论文」

二、第一层：四大核心能力怎么评？

综述 §2 把 Agent 必备能力拆为Planning、Tool Use、Self-Reflection、Memory。每一类都有从「单步能力」到「长程 Agent 工作流」的 benchmark 梯度。

2.1 规划与多步推理

早期用 HotpotQA、GSM8K 等推理集间接测 Agent；PlanBench 把经典规划任务搬进 LLM 语境，暴露长程规划短板。2026 新增的 DeepPlanning（2601.18137）强调带可验证约束的长 horizon 规划——即使 SOTA 模型，在「步骤多、约束硬」的设置下仍频繁失败。

2.2 工具调用：从单步 API 到 MCP 长程交互

工具评测经历了三代演进，综述梳理如下：

阶段	代表 Benchmark	测什么	局限
单步函数调用	ToolAlpaca、API-Bank、BFCL v1	意图识别、函数选择、参数映射	缺多轮状态
多步有状态	BFCL v2/v3、NESTFUL、ComplexFuncBench	依赖前序调用的链式工具、隐式参数	仍偏合成环境
真实 MCP 长程	MCP-Atlas（2602.00933）、Tool-Decathlon	真实 MCP Server、多域长任务	前沿模型仍远未饱和

BFCL 已成为 tool-use 事实标准；但综述提醒：单轮调用分数高，不等于 Agent 在 20 步工作流里不会选错工具或遗忘状态。

2.3 自反思与记忆

自反思评测多把现有 benchmark 改成多轮反馈环（LLF-Bench、Reflection-Bench），但缺乏统一标准仍是综述指出的 gap。记忆方面，LoCoMo、MemGym、MemoryArena（2602.16313）等把焦点从「聊天记名字」转向Agent 执行过程中动态形成的记忆——更接近生产环境。

图 2：综述 §5 benchmark 五维分析相关章节。来源：原论文 PDF 章节页（非独立 Figure 编号）。

三、第二层：按应用场景选 Benchmark

综述 §3 用四个「主战场」覆盖大部分工程需求。下表是精简版选型表（数字均来自各 benchmark 原论文或综述引用）：

场景	代表 Benchmark	环境特点	关键数字 / 备注
Web Agent	Mind2Web（静态）、WebArena（动态）	GUI / 浏览器	WebArena 2026 初 Top 约74.3%；Mind2Web 偏动作匹配
SWE Agent	SWE-bench Verified / Pro / Terminal-Bench	Docker 代码库	Verified500题；Pro Pass@1<25%
科研 Agent	ScienceAgentBench、PaperBench、AAAR-1.0	代码 + 实验设计	ResearchCodeBench 等约37%量级（见 auto-research 综述，非 Yehudai 正文数字）
对话 + 工具	τ-bench、τ²-bench	模拟用户 + API	τ² 引入电信域共享动态环境；IntellAgent 可合成场景

动态 vs 静态环境是选型第一原则：Mind2Web 等静态轨迹不会惩罚「早期错一步、后面全崩」的复合失败；WebArena、SWE-bench Docker 环境才能测长程状态依赖。

四、第三层：通用 Agent 与 benchmark 设计维度

4.1 通用 Agent：单 benchmark vs 统一平台

两条路线并行：

•单套综合题：GAIA（原论文165题真实世界问答）、GAIA2（移动 App 环境）、OSWorld / AppWorld（跨应用桌面操作）。GAIA 易子集已饱和，难例仍具挑战。
•多 benchmark 统一排行榜：AgentBench（多环境交互）、HAL（跨域 + 成本感知）、Harbor + CUBE（容器化 + 标准接口）。

LiveAgentBench 可视为第三条路——从社交媒体真实用户问题出发，用 SPDG（Social Perception-Driven Data Generation）流程持续产题，对抗数据污染。

4.2 五个正交维度：设计 benchmark 的检查清单

综述 Table 1 用五维对比代表 benchmark（节选复现）：

Benchmark	数据策展	环境	接口	指标	安全
SWE-bench Verified	混合 + 人工	动态	Code	单元测试	否
WebArena	混合	动态	GUI	混合	否
τ-Bench	混合	动态	Tools	状态匹配	是
GAIA	人工	动态	混合	答案匹配	否
PaperBench	混合	动态	Code	端到端	否

五个维度含义：

•Data：人工 / 合成 / 混合；GAIA 坚持人工出题保证「对人简单、对 Agent 难」。
•Environment：静态轨迹 vs 可改变状态的动态沙箱。
•Interface：Code / Tools / GUI 三种主流交互面。
•Metric：单测、状态匹配、答案匹配、端到端 rubric——指标选错可让分数偏差 100%（见 Establishing Best Practices, 2507.02825）。
•Safety：仅 τ-Bench 等少数显式测策略合规；多数 benchmark不惩罚删库式「成功」。

五、第四层：开发者评测框架与 2026 新范式

5.1 综述 §6：LangSmith 们评的是什么？

综述 Table 2 对比主流观测评测平台（不是 LangGraph/CrewAI 编排框架）：

平台	逐步评估	监控	轨迹评估	HITL	合成数据	A/B
LangSmith	✓	✓	✓	✓	×	✓
Langfuse	✓	✓	×	✓	×	✓
Vertex AI Eval	✓	✓	✓	×	×	✓
Arize	✓	✓	×	✓	✓	✓
Patronus AI	✓	✓	×	✓	✓	✓
Mosaic AI	✓	✓	×	✓	✓	✓

三类评估粒度：

Final Response
：快、便宜，适合回归测试，但看不见中间步骤。
Stepwise
：逐步 judge 工具选择、参数、路由——Arize Phoenix 有 routing/planning 模板。
Trajectory
：对照 gold path 或 LLM judge 评整条路径——LangSmith / Vertex 支持 exact / partial / subset 匹配。

综述指出的框架层 gap：缺安全合规内置指标、缺跨 trace 根因分析、LLM Judge 规模化成本未计入。

图 3：综述 Table 2 开发者评测平台能力对比。来源：原论文 Table 2 所在页。

5.2 AgentAtlas：别只看排行榜最后一列

AgentAtlas（UCSC + MIT，2026-05）不发布新 leaderboard，而是回答：你的分数到底在测哪种行为？

控制决策六态（任何工具型 Agent 都该显式打分）：

状态	含义	典型失败
Act	信息充分、可安全执行	过度犹豫
Ask	任务欠指定，应先澄清	盲目开干
Refuse	越权 / 有害	错误放行
Stop	已完成或应终止	无限循环
Confirm	不可逆操作需确认	直接执行
Recover	失败后应修复而非硬闯	无视错误继续

轨迹失败九类（继承 AgentRx 标签 + 两层扩展：错误来源 × 影响）。

对15个 benchmark 做六轴覆盖审计（0/1/2 分）：Tool 执行覆盖最好（9/15 强覆盖）；Control 决策与Trajectory多为弱覆盖；Efficiency无一 benchmark 强覆盖。

实证演示（1342条合成题、8个模型）的核心发现：

• 给模型显式标签菜单时，控制准确率集中在0.87–0.95，模型看起来差不多。
• 去掉标签菜单后，轨迹诊断准确率全体下降 14–40 个百分点，且收敛到0.54–0.62窄带——测的更像 prompt 监督，而非真实诊断力。
•没有模型能在控制、轨迹、工具上下文三个轴同时领先；τ-bench 上 Pass@1 冠军（Claude Opus 4.5,0.70）与 Pass@4 冠军（Qwen3.5,0.56）不是同一个。

Ask-or-Assume 案例：在欠指定的 SWE-bench Verified 子集上，不确定性感知 scaffold 通过选择性提问把分辨率从61.2%提到69.4%（+8.2pp）——说明「会不会 Ask」本身应是评测维度。

图 4：AgentAtlas 控制决策六态与 15 个 benchmark 覆盖分析示意。来源：AgentAtlas 论文。

5.3 Claw-Eval：可信评测需要「三条证据链」

Claw-Eval（北大 + 港大，2026-04 v3）针对综述仍缺的轨迹不透明、安全/鲁棒性嵌入不足、模态覆盖窄三件事，给出可落地协议：

架构：Setup → Execution → Judge 三阶段，执行与评分时间隔离，防止 Judge 信息泄露。

三通道证据（缺一不可）：

结构化 execution trace
服务端 audit log（Agent 对话里看不到）
执行后环境 snapshot

任务：300题、9类、2159条可独立验证 rubric 项；三分支——General 服务编排（161）、Multimodal 感知生成（101）、Multi-turn 专业对话（38）。

三维评分：Completion × Safety（乘性门控）× Robustness（注入错误后的恢复率）；每题3次 trial，报告 Score / Pass@3 / Pass^3。

Claw-Eval 在14个前沿模型上的 headline 结果：

发现	数字	含义
轨迹不透明 Judge 不可靠	漏检44%安全违规、13%鲁棒性问题	仅给对话 transcript 不够
能力 ≠ 一致性	Pass@3 稳定，Pass^3 在错误注入下最多降24pp	部署要看 Pass^k
多维排名分裂	Opus 4.6 Overall Pass^370.4%最高；Sonnet 4.6 Score81.4%最高	峰值与可靠不是一回事
Multimodal 仍是短板	Multimodal Pass^3 最高25.7%（GPT-5.4）	文本工具强 ≠ 视觉 Agent 强
多轮对话	提问质量与 Pass^3 相关r=0.87；轮数相关r=0.07	评对话 Agent 要看问什么，不是聊多久

图 5：Claw-Eval Setup / Execution / Judge 与三通道证据。来源：Claw-Eval Figure 1。

5.4 LiveAgentBench：真实场景 + 动态更新

LiveAgentBench（Ant Group，2026-03）补的是综述 §7.1 强调的Live Benchmarks路线：

•104场景、374任务（125 验证 / 249 测试），来源为知乎、Quora、Stack Overflow、短视频等真实用户问题
•SPDG标准流程：筛选不可检索、必须依赖工具 → 专家改闭式答案 → 双盲标注 + 第三人仲裁
• 覆盖 GAIA / AgentBench缺少的能力：Android/iOS 操作、音视频理解、浏览器 + 文件 + 多模态组合
• 支持定期更新，降低训练集污染风险

LiveAgentBench 整体结果（Pass@1，百分比）：

对象	Overall	备注
LLM 平均	~13.48%	纯模型几乎无法独立完成
Agent 产品平均	~23.85%	论文称 Agent 相对 LLM 平均高约56.51%（摘要 relative improvement 表述）
Manus（最佳 Agent）	35.29%	仍远低于人类
AWorld 框架	15.51%	约11.76%任务因不稳定直接失败
人类	69.25%	真实任务天花板参考

Gemini-2.5-pro 在 LLM 中最高（16.85%），但不及 Manus 一半——说明真实世界 Agent 评测与 GAIA 类学术榜分化明显。

LiveAgentBench 还按能力维度暴露短板（节选 Overall 正确率，%）：

能力维度	Manus	人类	差距解读
Video	16.0	80.0	音视频理解仍是 Agent 盲区
Audio	33.33	73.33	同上
Image	35.29	60.50	多模态弱于文本/File
Text / File	28.40 / 37.85	73.33 / 64.20	工具链稳定时仍难追人

论文还指出：工具稳定性对 Agent 分数影响大于模型本身——AWorld 约11.76%任务因框架不稳定未执行完毕；AWorld Overall15.51%，与商业 Agent 产品整体相差约8.34个百分点（摘要表述为 AWorld vs other agents）。

图 6：LiveAgentBench 从真实用户案例到评测集的构建概览。来源：LiveAgentBench Figure 1–2。

六、2026 工程向评测 Playbook

把综述 + 三篇 2026 论文合成一套可执行 checklist：

6.1 先定「评什么」

目标	推荐组合
工具调用基线	BFCL v4 + MCP-Atlas 子集
编码 Agent	SWE-bench Verified（回归）+ Pro 子集（压力）
Web / 桌面	WebArena 或 OSWorld + 报告 scaffold 配置
对话 + 策略	τ²-bench（Pass@1与Pass@4 都报）
真实用户任务	LiveAgentBench 或自建 SPDG 式闭式答案集
上线前审计	Claw-Eval 风格三通道 + Safety 乘性门控
行为诊断	AgentAtlas 六态 + 九类轨迹标签

6.2 再定「怎么评才公平」

•固定三角：同一 backbone 模型 + 同一工具集 + 同一 token/时间预算
•至少报三个数：成功率（或 Pass@k）、成本（token / 美元 / 延迟）、一致性（Pass^k 或 trial 方差）
•拆开 LLM 与 Harness：同一模型换框架、或同一框架换模型，只做单因子变化
•拒绝轨迹黑盒：Final answer judge 仅作 smoke test；关键路径必须 step / trajectory 级证据
•嵌入失败注入：Claw-Eval 显示 HTTP 429/500 注入下 Pass^3 暴跌而 Pass@3 几乎不动——生产必测鲁棒性
•动态刷新题池：静态榜饱和后迁移到 LiveAgentBench / BFCL 新版本 / SWE-bench Pro

6.3 综述仍指出的未解 gap

Yehudai v2 §7.2 与三篇 2026 论文共同指向：

•细粒度指标标准化仍缺（AgentAtlas 在补 vocabulary，不是最终 score）
•成本效率rarely 与准确率同列（HAL 是少数例外）
•安全合规多数 benchmark 仍后置
•Harness 解耦协议刚起步（Harbor / CUBE）
•LLM Judge 成本与偏差未纳入评测 meta-metrics

七、局限与如何使用

综述局限：2026 年 4 月 v2 已是该领域最新总综述，但 Agent 评测仍快变；作者维护 GitHub 追踪库持续更新文献。

AgentAtlas 局限：§7 演示集由单一 Claude Opus 4.7 生成标签，绝对分数不宜与 HAL / AgentRx 直接横比；定位为measurement protocol，非替代 GAIA / SWE-bench 的新榜。

Claw-Eval 局限：300 题覆盖仍有限；Multimodal 对 9 个视觉模型子集评测；Judge 仍部分依赖 Gemini-3-Flash。

LiveAgentBench 局限：闭式字符串匹配简化评测，对开放生成报告类任务覆盖不足；部分场景依赖中国互联网数据源，跨区域泛化需验证。

建议使用顺序：

通读 Yehudai 综述 Figure 1 + §5 维度表，建立 benchmark 地图
按业务场景从 §3 表选 1–2 个主 benchmark + 1 个 stress benchmark
上线前参照 Claw-Eval 补轨迹审计与安全/鲁棒性
用 AgentAtlas taxonomy 做「我们的榜到底缺哪几个行为轴」自查
季度性加入 LiveAgentBench 或自建 SPDG 题池做 drift 检测

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～