LLM Agent 怎么测评:IBM+Yale 评测综述与 2026 三条新范式
摘要
静态 LLM 评的是「答对没有」;Agent 评的是「在动态环境里,能不能通过一连串决策把事做成」。IBM Research 与 Yale 等在2026 年 4 月更新的 v2 综述(arXiv:2503.16416)把 Agent 评测拆成五层:核心能力(规划 / 工具 / 自反思 / 记忆)→ 应用 benchmark(Web / SWE / 科研 / 对话)→ 通用 Agent → benchmark 设计维度 → 开发者评测框架(LangSmith、Langfuse 等)。综述指出行业正从「静态、易饱和的单点 benchmark」转向更真实、可持续更新的 live evaluation,并强调必须解耦backbone LLM与Agent Harness(脚手架)的贡献。2026 年三篇跟进工作则从三个方向补洞:AgentAtlas(2605.20530)提出控制决策六态 + 轨迹失败九类 taxonomy,证明「只看最终成功率」会系统性误导;Claw-Eval(2604.06132)用三通道轨迹审计 + 300 人工校验任务,显示仅看输出的 LLM Judge 会漏掉44%安全违规;LiveAgentBench(2603.02586)以104个真实场景、374条任务动态评测,最好商业 Agent(Manus)成功率仅35.29%,人类可达69.25%。本文以综述为骨架,用三篇 2026 论文说明「2026 年该怎么评 Agent」。
Survey on Evaluation of LLM-based Agents
一、为什么评 Agent 不能沿用评 LLM 的老办法?
LLM 评测的主流范式是:给定输入,检查输出是否匹配标准答案或 rubric。Agent 则多了一步——它要在动态环境里做序列决策:选工具、改状态、多轮对话、失败后恢复。Yehudai 等(IBM Research + Yale)在综述开篇点明:评测对象从「文本生成质量」变成「任务完成路径 + 中间行为是否合规」。
三个现实痛点在 2025–2026 被反复验证:
•成功率虚高:综述附录 E.2 称 SWE-bench Verified Top 性能已约80%(接近饱和);WebArena 动态环境 Top 约74.3%(2026 年 2 月提交)。但 SWE-bench Pro 在41个仓库、1865个经人工校验的长程任务上,正文 §3.2 仍写 Pass@1低于 25%(附录 E.2 则更新称 Pro SOTA 约46%——需随模型迭代注明时间戳)——说明「修 familiar bug」与「做 hours 级多文件改动」不是同一回事。
•脚手架混淆模型能力:AgentAtlas 报告,OSWorld 上同一 agent-s3 + GPT-5 组合,单从次运行切到 best-of-10,分数可从65.6%涨到69.9%;CCBench 上 Claude Code 不同版本跨度达50.8个百分点。排行榜越来越像「系统工程分」,而非纯模型分。
•静态 benchmark 快速饱和:BFCL 从 v1 演进到 v4、SWE-bench 衍生 Verified / Pro 家族,本质都是在对抗数据污染、任务过易、评测协议过松。
Yehudai 综述的 Figure 1 用一棵「能力 → 应用 → 通用 → 维度 → 工具链」的树,把 2023–2026 初上百篇 benchmark 与评测平台挂到同一坐标系上——后文所有「该用哪个 benchmark」的讨论,都建议先在这张地图里定位。
图 1:评测综述的五层结构(能力 / 应用 / 通用 Agent / benchmark 维度 / 开发者框架)。来源:原论文 Figure 1。
1.1 评测对象:LLM、Harness、还是整个系统?
综述 v2 特别强调Decoupling LLM & Harness Evaluation。一次 Agent 跑分至少混了三样东西:
| 组件 | 是什么 | 单独评测的意义 |
|---|---|---|
| Backbone LLM | GPT / Claude / Qwen 等基座 | 隔离「模型本身」的推理与工具调用能力 |
| Agent Harness | LangGraph / 自研编排、记忆、重试策略 | 隔离「框架与脚手架」带来的增益或损耗 |
| 工具与环境 | MCP Server、Docker 沙箱、浏览器 | 隔离「外部接口稳定性」对分数的影响 |
Harbor、Exgentic、CUBE(2603.15798)等 2026 工作正试图用统一协议让同一 harness 跨 benchmark 复跑——这是框架测评走向可复现的前提。
微信号iamxxn886· 备注「论文」
二、第一层:四大核心能力怎么评?
综述 §2 把 Agent 必备能力拆为Planning、Tool Use、Self-Reflection、Memory。每一类都有从「单步能力」到「长程 Agent 工作流」的 benchmark 梯度。
2.1 规划与多步推理
早期用 HotpotQA、GSM8K 等推理集间接测 Agent;PlanBench 把经典规划任务搬进 LLM 语境,暴露长程规划短板。2026 新增的 DeepPlanning(2601.18137)强调带可验证约束的长 horizon 规划——即使 SOTA 模型,在「步骤多、约束硬」的设置下仍频繁失败。
2.2 工具调用:从单步 API 到 MCP 长程交互
工具评测经历了三代演进,综述梳理如下:
| 阶段 | 代表 Benchmark | 测什么 | 局限 |
|---|---|---|---|
| 单步函数调用 | ToolAlpaca、API-Bank、BFCL v1 | 意图识别、函数选择、参数映射 | 缺多轮状态 |
| 多步有状态 | BFCL v2/v3、NESTFUL、ComplexFuncBench | 依赖前序调用的链式工具、隐式参数 | 仍偏合成环境 |
| 真实 MCP 长程 | MCP-Atlas(2602.00933)、Tool-Decathlon | 真实 MCP Server、多域长任务 | 前沿模型仍远未饱和 |
BFCL 已成为 tool-use 事实标准;但综述提醒:单轮调用分数高,不等于 Agent 在 20 步工作流里不会选错工具或遗忘状态。
2.3 自反思与记忆
自反思评测多把现有 benchmark 改成多轮反馈环(LLF-Bench、Reflection-Bench),但缺乏统一标准仍是综述指出的 gap。记忆方面,LoCoMo、MemGym、MemoryArena(2602.16313)等把焦点从「聊天记名字」转向Agent 执行过程中动态形成的记忆——更接近生产环境。
图 2:综述 §5 benchmark 五维分析相关章节。来源:原论文 PDF 章节页(非独立 Figure 编号)。
三、第二层:按应用场景选 Benchmark
综述 §3 用四个「主战场」覆盖大部分工程需求。下表是精简版选型表(数字均来自各 benchmark 原论文或综述引用):
| 场景 | 代表 Benchmark | 环境特点 | 关键数字 / 备注 |
|---|---|---|---|
| Web Agent | Mind2Web(静态)、WebArena(动态) | GUI / 浏览器 | WebArena 2026 初 Top 约74.3%;Mind2Web 偏动作匹配 |
| SWE Agent | SWE-bench Verified / Pro / Terminal-Bench | Docker 代码库 | Verified500题;Pro Pass@1<25% |
| 科研 Agent | ScienceAgentBench、PaperBench、AAAR-1.0 | 代码 + 实验设计 | ResearchCodeBench 等约37%量级(见 auto-research 综述,非 Yehudai 正文数字) |
| 对话 + 工具 | τ-bench、τ²-bench | 模拟用户 + API | τ² 引入电信域共享动态环境;IntellAgent 可合成场景 |
动态 vs 静态环境是选型第一原则:Mind2Web 等静态轨迹不会惩罚「早期错一步、后面全崩」的复合失败;WebArena、SWE-bench Docker 环境才能测长程状态依赖。
四、第三层:通用 Agent 与 benchmark 设计维度
4.1 通用 Agent:单 benchmark vs 统一平台
两条路线并行:
•单套综合题:GAIA(原论文165题真实世界问答)、GAIA2(移动 App 环境)、OSWorld / AppWorld(跨应用桌面操作)。GAIA 易子集已饱和,难例仍具挑战。
•多 benchmark 统一排行榜:AgentBench(多环境交互)、HAL(跨域 + 成本感知)、Harbor + CUBE(容器化 + 标准接口)。
LiveAgentBench 可视为第三条路——从社交媒体真实用户问题出发,用 SPDG(Social Perception-Driven Data Generation)流程持续产题,对抗数据污染。
4.2 五个正交维度:设计 benchmark 的检查清单
综述 Table 1 用五维对比代表 benchmark(节选复现):
| Benchmark | 数据策展 | 环境 | 接口 | 指标 | 安全 |
|---|---|---|---|---|---|
| SWE-bench Verified | 混合 + 人工 | 动态 | Code | 单元测试 | 否 |
| WebArena | 混合 | 动态 | GUI | 混合 | 否 |
| τ-Bench | 混合 | 动态 | Tools | 状态匹配 | 是 |
| GAIA | 人工 | 动态 | 混合 | 答案匹配 | 否 |
| PaperBench | 混合 | 动态 | Code | 端到端 | 否 |
五个维度含义:
•Data:人工 / 合成 / 混合;GAIA 坚持人工出题保证「对人简单、对 Agent 难」。
•Environment:静态轨迹 vs 可改变状态的动态沙箱。
•Interface:Code / Tools / GUI 三种主流交互面。
•Metric:单测、状态匹配、答案匹配、端到端 rubric——指标选错可让分数偏差 100%(见 Establishing Best Practices, 2507.02825)。
•Safety:仅 τ-Bench 等少数显式测策略合规;多数 benchmark不惩罚删库式「成功」。
五、第四层:开发者评测框架与 2026 新范式
5.1 综述 §6:LangSmith 们评的是什么?
综述 Table 2 对比主流观测评测平台(不是 LangGraph/CrewAI 编排框架):
| 平台 | 逐步评估 | 监控 | 轨迹评估 | HITL | 合成数据 | A/B |
|---|---|---|---|---|---|---|
| LangSmith | ✓ | ✓ | ✓ | ✓ | × | ✓ |
| Langfuse | ✓ | ✓ | × | ✓ | × | ✓ |
| Vertex AI Eval | ✓ | ✓ | ✓ | × | × | ✓ |
| Arize | ✓ | ✓ | × | ✓ | ✓ | ✓ |
| Patronus AI | ✓ | ✓ | × | ✓ | ✓ | ✓ |
| Mosaic AI | ✓ | ✓ | × | ✓ | ✓ | ✓ |
三类评估粒度:
Final Response
:快、便宜,适合回归测试,但看不见中间步骤。
Stepwise
:逐步 judge 工具选择、参数、路由——Arize Phoenix 有 routing/planning 模板。
Trajectory
:对照 gold path 或 LLM judge 评整条路径——LangSmith / Vertex 支持 exact / partial / subset 匹配。
综述指出的框架层 gap:缺安全合规内置指标、缺跨 trace 根因分析、LLM Judge 规模化成本未计入。
图 3:综述 Table 2 开发者评测平台能力对比。来源:原论文 Table 2 所在页。
5.2 AgentAtlas:别只看排行榜最后一列
AgentAtlas(UCSC + MIT,2026-05)不发布新 leaderboard,而是回答:你的分数到底在测哪种行为?
控制决策六态(任何工具型 Agent 都该显式打分):
| 状态 | 含义 | 典型失败 |
|---|---|---|
| Act | 信息充分、可安全执行 | 过度犹豫 |
| Ask | 任务欠指定,应先澄清 | 盲目开干 |
| Refuse | 越权 / 有害 | 错误放行 |
| Stop | 已完成或应终止 | 无限循环 |
| Confirm | 不可逆操作需确认 | 直接执行 |
| Recover | 失败后应修复而非硬闯 | 无视错误继续 |
轨迹失败九类(继承 AgentRx 标签 + 两层扩展:错误来源 × 影响)。
对15个 benchmark 做六轴覆盖审计(0/1/2 分):Tool 执行覆盖最好(9/15 强覆盖);Control 决策与Trajectory多为弱覆盖;Efficiency无一 benchmark 强覆盖。
实证演示(1342条合成题、8个模型)的核心发现:
• 给模型显式标签菜单时,控制准确率集中在0.87–0.95,模型看起来差不多。
• 去掉标签菜单后,轨迹诊断准确率全体下降 14–40 个百分点,且收敛到0.54–0.62窄带——测的更像 prompt 监督,而非真实诊断力。
•没有模型能在控制、轨迹、工具上下文三个轴同时领先;τ-bench 上 Pass@1 冠军(Claude Opus 4.5,0.70)与 Pass@4 冠军(Qwen3.5,0.56)不是同一个。
Ask-or-Assume 案例:在欠指定的 SWE-bench Verified 子集上,不确定性感知 scaffold 通过选择性提问把分辨率从61.2%提到69.4%(+8.2pp)——说明「会不会 Ask」本身应是评测维度。
图 4:AgentAtlas 控制决策六态与 15 个 benchmark 覆盖分析示意。来源:AgentAtlas 论文。
5.3 Claw-Eval:可信评测需要「三条证据链」
Claw-Eval(北大 + 港大,2026-04 v3)针对综述仍缺的轨迹不透明、安全/鲁棒性嵌入不足、模态覆盖窄三件事,给出可落地协议:
架构:Setup → Execution → Judge 三阶段,执行与评分时间隔离,防止 Judge 信息泄露。
三通道证据(缺一不可):
- 结构化 execution trace
- 服务端 audit log(Agent 对话里看不到)
- 执行后环境 snapshot
任务:300题、9类、2159条可独立验证 rubric 项;三分支——General 服务编排(161)、Multimodal 感知生成(101)、Multi-turn 专业对话(38)。
三维评分:Completion × Safety(乘性门控)× Robustness(注入错误后的恢复率);每题3次 trial,报告 Score / Pass@3 / Pass^3。
Claw-Eval 在14个前沿模型上的 headline 结果:
| 发现 | 数字 | 含义 |
|---|---|---|
| 轨迹不透明 Judge 不可靠 | 漏检44%安全违规、13%鲁棒性问题 | 仅给对话 transcript 不够 |
| 能力 ≠ 一致性 | Pass@3 稳定,Pass^3 在错误注入下最多降24pp | 部署要看 Pass^k |
| 多维排名分裂 | Opus 4.6 Overall Pass^370.4%最高;Sonnet 4.6 Score81.4%最高 | 峰值与可靠不是一回事 |
| Multimodal 仍是短板 | Multimodal Pass^3 最高25.7%(GPT-5.4) | 文本工具强 ≠ 视觉 Agent 强 |
| 多轮对话 | 提问质量与 Pass^3 相关r=0.87;轮数相关r=0.07 | 评对话 Agent 要看问什么,不是聊多久 |
图 5:Claw-Eval Setup / Execution / Judge 与三通道证据。来源:Claw-Eval Figure 1。
5.4 LiveAgentBench:真实场景 + 动态更新
LiveAgentBench(Ant Group,2026-03)补的是综述 §7.1 强调的Live Benchmarks路线:
•104场景、374任务(125 验证 / 249 测试),来源为知乎、Quora、Stack Overflow、短视频等真实用户问题
•SPDG标准流程:筛选不可检索、必须依赖工具 → 专家改闭式答案 → 双盲标注 + 第三人仲裁
• 覆盖 GAIA / AgentBench缺少的能力:Android/iOS 操作、音视频理解、浏览器 + 文件 + 多模态组合
• 支持定期更新,降低训练集污染风险
LiveAgentBench 整体结果(Pass@1,百分比):
| 对象 | Overall | 备注 |
|---|---|---|
| LLM 平均 | ~13.48% | 纯模型几乎无法独立完成 |
| Agent 产品平均 | ~23.85% | 论文称 Agent 相对 LLM 平均高约56.51%(摘要 relative improvement 表述) |
| Manus(最佳 Agent) | 35.29% | 仍远低于人类 |
| AWorld 框架 | 15.51% | 约11.76%任务因不稳定直接失败 |
| 人类 | 69.25% | 真实任务天花板参考 |
Gemini-2.5-pro 在 LLM 中最高(16.85%),但不及 Manus 一半——说明真实世界 Agent 评测与 GAIA 类学术榜分化明显。
LiveAgentBench 还按能力维度暴露短板(节选 Overall 正确率,%):
| 能力维度 | Manus | 人类 | 差距解读 |
|---|---|---|---|
| Video | 16.0 | 80.0 | 音视频理解仍是 Agent 盲区 |
| Audio | 33.33 | 73.33 | 同上 |
| Image | 35.29 | 60.50 | 多模态弱于文本/File |
| Text / File | 28.40 / 37.85 | 73.33 / 64.20 | 工具链稳定时仍难追人 |
论文还指出:工具稳定性对 Agent 分数影响大于模型本身——AWorld 约11.76%任务因框架不稳定未执行完毕;AWorld Overall15.51%,与商业 Agent 产品整体相差约8.34个百分点(摘要表述为 AWorld vs other agents)。
图 6:LiveAgentBench 从真实用户案例到评测集的构建概览。来源:LiveAgentBench Figure 1–2。
六、2026 工程向评测 Playbook
把综述 + 三篇 2026 论文合成一套可执行 checklist:
6.1 先定「评什么」
| 目标 | 推荐组合 |
|---|---|
| 工具调用基线 | BFCL v4 + MCP-Atlas 子集 |
| 编码 Agent | SWE-bench Verified(回归)+ Pro 子集(压力) |
| Web / 桌面 | WebArena 或 OSWorld + 报告 scaffold 配置 |
| 对话 + 策略 | τ²-bench(Pass@1与Pass@4 都报) |
| 真实用户任务 | LiveAgentBench 或自建 SPDG 式闭式答案集 |
| 上线前审计 | Claw-Eval 风格三通道 + Safety 乘性门控 |
| 行为诊断 | AgentAtlas 六态 + 九类轨迹标签 |
6.2 再定「怎么评才公平」
•固定三角:同一 backbone 模型 + 同一工具集 + 同一 token/时间预算
•至少报三个数:成功率(或 Pass@k)、成本(token / 美元 / 延迟)、一致性(Pass^k 或 trial 方差)
•拆开 LLM 与 Harness:同一模型换框架、或同一框架换模型,只做单因子变化
•拒绝轨迹黑盒:Final answer judge 仅作 smoke test;关键路径必须 step / trajectory 级证据
•嵌入失败注入:Claw-Eval 显示 HTTP 429/500 注入下 Pass^3 暴跌而 Pass@3 几乎不动——生产必测鲁棒性
•动态刷新题池:静态榜饱和后迁移到 LiveAgentBench / BFCL 新版本 / SWE-bench Pro
6.3 综述仍指出的未解 gap
Yehudai v2 §7.2 与三篇 2026 论文共同指向:
•细粒度指标标准化仍缺(AgentAtlas 在补 vocabulary,不是最终 score)
•成本效率rarely 与准确率同列(HAL 是少数例外)
•安全合规多数 benchmark 仍后置
•Harness 解耦协议刚起步(Harbor / CUBE)
•LLM Judge 成本与偏差未纳入评测 meta-metrics
七、局限与如何使用
综述局限:2026 年 4 月 v2 已是该领域最新总综述,但 Agent 评测仍快变;作者维护 GitHub 追踪库 持续更新文献。
AgentAtlas 局限:§7 演示集由单一 Claude Opus 4.7 生成标签,绝对分数不宜与 HAL / AgentRx 直接横比;定位为measurement protocol,非替代 GAIA / SWE-bench 的新榜。
Claw-Eval 局限:300 题覆盖仍有限;Multimodal 对 9 个视觉模型子集评测;Judge 仍部分依赖 Gemini-3-Flash。
LiveAgentBench 局限:闭式字符串匹配简化评测,对开放生成报告类任务覆盖不足;部分场景依赖中国互联网数据源,跨区域泛化需验证。
建议使用顺序:
- 通读 Yehudai 综述 Figure 1 + §5 维度表,建立 benchmark 地图
- 按业务场景从 §3 表选 1–2 个主 benchmark + 1 个 stress benchmark
- 上线前参照 Claw-Eval 补轨迹审计与安全/鲁棒性
- 用 AgentAtlas taxonomy 做「我们的榜到底缺哪几个行为轴」自查
- 季度性加入 LiveAgentBench 或自建 SPDG 题池做 drift 检测
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
