当前位置：首页 > news >正文

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward

news 2026/4/21 11:44:18

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台，深度绑定高性能弹性算力，支持模型复现、训练、推理全流程，以按需计费、低价高效破解高端算力紧缺与成本高昂难题；同步Arxiv前沿论文并提供翻译、导读、分析服务，支持各类大模型一键复现与数据集微调，对接孵化资源助力科研成果转化；同时搭载多样化AI在线课程，实现理论学习与代码实操同步推进，全方位覆盖AI研发、科研创新与技能学习全场景需求。

大模型实验室官网链接： https://www.lab4ai.cn/arxiv?utm_source=bky_daily_paper

作者信息

南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图

研究背景

大语言模型正从被动对话系统演进为可自主调用工具、完成复杂推理的智能体系统，模型行为从单轮回复转变为包含用户输入、推理、工具执行与环境反馈的轨迹序列。
传统基于人类反馈的强化学习（RLHF）中，奖励模型（RM）是模型对齐的核心信号源，但现有奖励模型评估基准存在明显缺陷：
- 主流基准仅聚焦短上下文场景下的单轮回复偏好评估，缺乏对复杂推理过程与多轮交互的覆盖；
- 长上下文奖励模型研究多依赖人工扩展上下文，无法刻画智能体工作流的自然复杂度与动态依赖关系；
- 专用工具使用基准仅验证单轮原子动作正确性，忽略连贯的长时序规划行为评估；
- 现有方案无法在工具集成环境中，对奖励模型区分优质与劣质智能体轨迹的能力进行严谨测评。
智能体奖励建模需同时评估最终结果与中间步骤的合理性、一致性与安全性，现有评估体系无法满足该需求。

研究目的

填补工具集成环境下轨迹级奖励模型专用评估基准的空白，解决现有基准无法测评长时序、多步骤智能体轨迹奖励建模能力的问题。
构建覆盖复杂工具使用场景的轨迹级偏好基准，精准测评奖励模型在智能体规划逻辑、工具使用保真度、安全拒绝、错误恢复等维度的判别能力。
提供可复用的智能体偏好数据构建方案，为判别式奖励模型（DRM）、生成式奖励模型（GRM）与智能体强化学习提供高质量训练信号。
诊断现有奖励模型在轨迹级评估中的失效模式，为下一代规划中心型智能体的对齐研究提供方向。

本文核心贡献

提出首个面向复杂工具智能体的轨迹级偏好基准Plan-RewardBench，覆盖安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复四大任务家族，可高分辨率测评奖励模型的轨迹判别能力。
设计可复用的多源智能体偏好数据构建流程，融合多模型自然推演、规则扰动、最小编辑扰动三种方式，为轨迹级奖励模型训练提供标准化数据方案。
构建包含高质量标注与高难度负样本的数据集，通过多LLM评审团+元评审过滤+人工审核保证标签可靠性，严格控制长度、格式偏差以隔离语义失效问题。
完成主流奖励模型（判别式、生成式、LLM评判器）的统一测评，揭示不同模型在长时序轨迹下的性能退化规律与典型失效模式，验证专用轨迹级奖励建模训练的必要性。

研究方法

1. 任务设定

将基准定义为轨迹成对偏好任务，每个样本包含工具环境、多轮用户交互、两条候选轨迹，依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签，支持成对比较与单点打分两种评估模式。

2. 数据来源与构建

种子数据：基于Toucan项目的真实MCP工具注册信息与工具执行结果；
候选轨迹生成：使用Qwen-Agent、OpenAIAgent运行多模型、多采样参数推演，获取自然成功与失败轨迹（占比70%）；
高难度负样本构建：
- 规则扰动：注入约束丢失、参数错误、盲目重试等可控失效；
- 最小编辑扰动：对高分轨迹小幅修改，保留风格同时引入特定缺陷；
轨迹过滤：剔除格式错误、执行失败等异常样本，统计长度、轮数等特征用于分层分析。

3. 场景家族与标注

四大场景：安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复，各场景设计专属评判规则与负样本类型；
标注流程：多LLM评审团1-5分打分→元评审处理分歧→人工分层审核→成对组装（控制难度与偏差）→独立成对校验确认标签。

4. 评估方案

测评模型：判别式奖励模型（DRM）、生成式奖励模型（GRM）、通用LLM评判器；
输入表示：统一提供工具环境、对话历史、完整轨迹，固定环境与用户意图，仅对比智能体轨迹差异；
指标与偏差控制：核心指标为成对准确率，采用A/B交换缓解位置偏差，按轨迹长度、轮数、场景难度分层分析。

研究结果

整体性能：Plan-RewardBench是严苛测评基准，无模型在所有维度占优，最优模型Qwen-Plus整体准确率69.96%，长时序复杂规划任务上模型普遍难以突破70%。
模型类型差异：
- 通用LLM评判器整体表现最优，但长上下文退化最明显；
- 大参数量判别式奖励模型（Inf-ORM-Llama3.1-70B）竞争力强，准确率69.21%，在错误恢复场景表现突出；
- 开源判别式奖励模型在安全拒绝场景接近随机水平。
场景表现：
- 安全拒绝场景极化最严重，模型准确率跨度40.69%–84.80%；
- 工具无关场景易受“努力偏差”影响，偏好冗余工具调用；
- 复杂规划场景随轨迹长度增加，模型难以跟踪动态约束更新；
- 错误恢复场景模型难区分盲目重试与智能修复。
长度敏感性：轨迹长度小于4k tokens时性能稳定，超过32k tokens后准确率急剧下降，部分模型低于随机水平；成对LLM评判器退化比单点判别式模型更剧烈。
下游验证：在BFCL v4工具调用任务的best-of-N重排序中，Plan-RewardBench上表现更好的评判器，下游任务提升更显著。