当前位置：首页 > news >正文

LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

news 2026/6/30 4:52:00

一个经常加班的白领，一个带着孩子出游的父亲，你的AI助理能分清他们需要什么样的服务吗？

现实是，它常常分不清。

AI能执行你明确的指令，却很难记住那些藏在场景和身份背后的真实需求。它们是真的无法理解，还是“情商”不够高呢？

自去年10月发布了VitaBench 1.0，首次定义了生活场景下智能体任务的复杂度，美团 Longcat 团队再次推出 VitaBench 2.0，它不再仅仅关注任务有多难，而是将目光投向了更深层次的挑战。

VitaBench 2.0 是首个真实生活场景下面向长期动态用户建模的智能体评测基准，它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。

VitaBench 2.0 的核心“硬核”看点：

高难度业界首创：首次将智能体场景与丰富用户生态相结合，打造面向长期动态用户建模的智能体基准。其包含56名真实特征用户、819个复杂任务、超2000个动态偏好及66个可执行工具。
超长跨度动态追踪：平均每位用户包含 2093 个交互事件，平均时间跨度长达 1580 天，严格按时间线向 Agent 暴露，真实还原用户偏好的演进与漂移。
统一评测生态：针对长文本上下文学习（In-context learning）与智能体记忆策略（Memory Strategy）的统一评测平台。

01 设计原理：VitaBench 2.0的三维解构

能得出这些结论，得益于VitaBench 2.0的核心设计。它不再是简单的问答，而是围绕三大创新构建了一个前所未有的评测体系。

1.1 搭建“人生副本”：让AI在真实用户轨迹中接受考验

不同于一次性的问答，VitaBench 2.0为56位虚拟用户，在送餐、到店、差旅等多个真实领域中，构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。

这背后是庞大而真实的数据支撑。如下图所示，这些图表直观地展示了我们构建的用户画像和偏好分布的真实性与复杂性。

具体来说，这个数据生态包含：

56个拟真用户，每个用户都拥有基于真实世界统计数据构建的独特身份、习惯和需求。
819个可执行任务，贯穿于用户的整个生命周期。
用户的偏好不是静态标签，而是会随着时间、事件而动态演变，平均每个用户的偏好会发生超过48次动态变化。

这些偏好被巧妙地嵌入到碎片化的互动历史中，包括对话记录和行为日志（如浏览、搜索、下单）。智能体必须像侦探一样，从这些混杂着“信号”与“噪音”的线索中，持续对用户进行理解。

1.2 引入“时间标尺”：将持续理解作为核心目标

传统的Agent评测关注“单个任务是否完成”，而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。

为此，我们将评测的时间轴拉长到了前所未有的尺度，用户的平均交互周期长达1580天（约4.3年），最长甚至达到2,974天。在这漫长的时间线里，智能体需要不断地提取、利用、并更新对用户的理解，才能在后续的任务中做出正确决策。这从根本上改变了评测的焦点，从单次任务的成功，转向了对用户偏好的考核。

1.3 设立“记忆擂台”：对决AI的两种记忆模式

为了探究记忆在长期用户建模中的作用，VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台，通过可扩展的接口，让两种代表性机制在此对决：

智能体记忆： AI自己决定记住什么、忘记什么，主动维护一个精炼的用户档案。
RAG记忆：像一个外部搜索引擎，根据当前任务检索最相关的历史片段。

通过对比这两种模式，我们可以清晰地看到不同记忆架构，以及同架构下的不同设计对个性化决策的真实影响，从而回答“AI应该如何记忆”这一关键问题。同时，为了考验AI的“眼力劲”，我们还设计了主动性任务。在这些任务中，AI必须意识到信息不足并主动提问，而不是盲目决策。

02 核心洞察：用数据看清模型的短板

VitaBench 2.0不仅给出了总分，更用数据揭示了模型们犯错的具体原因。如表1所示，这是主要模型在不同记忆设置下的性能排行榜。

从排行榜（表1）可以看出，即使在能看到全部历史记录的“开卷”模式下，最强的模型Claude-Opus-4.6的平均分也刚过0.5，说明从海量信息中准确提炼偏好本身就比较困难。而一旦切换到更真实的记忆模式，模型的表现出现了不同程度的下滑。

洞察一：时间越长，AI忘得越快

如下图所示，随着任务序列索引增加（即时间推移），所有模型的平均性能都在下降。这说明，无论是处理超长上下文的能力，还是记忆模块的累积误差，都严重限制了AI的长期服务能力。

更关键的是，记忆并没有成为解药。对比实验结果发现，大部分模型在接入Agentic Memory或RAG Memory后，性能反而低于直接使用全历史记录的场景——记忆不是装上就好，如何正确更新、检索和利用，才是真正的挑战。

洞察二：高“智商”不等于高“情商”

一个常见的假设是，开启模型的“思考模式”能提升其表现。然而，VitaBench 2.0 的实验结果给出了相反的答案：开启思考模式，在个性化任务上并不总是有帮助。

下图展示了模型在开启/关闭思考模式下的性能与效率关系。横轴是完成任务所需的交互轮数（越少越好），纵轴是平均性能（越高越好），理想的模型应位于左上角。可以看到，开启思考模式的点并没有稳定地比关闭模式更优越。

洞察三：AI普遍缺乏“主动沟通”的意愿

模型普遍缺乏在信息不足时主动提问的“眼力见”。所有模型家族在需要主动提问的任务上，得分都出现了“断崖式”下跌。例如，Claude家族的平均分从46.0骤降至27.4。这表明，AI倾向于“想当然”，而不是在不确定时“多问一句”。

洞察四：就算“喂到嘴边”，AI也未必会吃

为了分离“提取偏好”和“利用偏好”这两个难题，我们直接把真实用户偏好告诉模型。虽然性能有所提升，但仍有很大进度空间。即便把真实偏好直接告诉模型，多数模型仍然失败。这说明，即使拥有了准确的用户画像，在高压、多约束的决策中正确应用这些偏好，本身就是一个巨大的挑战。

洞察五：从“工具失误”到“情商不足”的瓶颈转移

我们对模型的失败原因进行了分类统计。在由66个真实工具构成的复杂生活服务场景中，早期模型更多地犯下工具使用错误（A类），例如选错API或填错参数。而更强的模型（如DeepSeek-V4-Pro）虽然工具用得更好了，但在偏好理解和应用（B类）上的失败却成了主要矛盾。这表明随着模型基础能力的提升，个性化已是当前 Agent 的最大瓶颈。