当前位置: 首页 > news >正文

【LLM】CL-bench:评估LLM学新知识的能力

note

  • CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
  • CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。

文章目录

  • note
  • 一、CL-bench覆盖的内容
  • 二、CL-bench设计原则
  • 三、CL-bench评估结果
  • Reference

一、CL-bench覆盖的内容

1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景:

领域知识推理: context 中提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。

规则系统应用: context 中提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。

程序性任务执行: context 中提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟: context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

三、CL-bench评估结果

结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。

Reference

[1] https://hy.tencent.com/research/100025?langVersion=zh

http://www.jsqmd.com/news/340062/

相关文章:

  • Go进阶之异常处理error
  • Cesium切换视角中心点不变
  • 2026优质皮革供应商榜合集!值得信赖的汽车内饰皮革、PVC皮革、TPO门板表皮好的工厂、广东广告膜定做厂家一站式推荐 - 栗子测评
  • 2026年热门的不锈钢厨房设备厂家专业度参考(精选) - 行业平台推荐
  • 第三次Python练习题
  • 2026年知名的餐厅厨房设备/梦远厨房设备用户口碑认可厂家 - 行业平台推荐
  • 2026年口碑好的扬州龙凤呈祥无人机/无人机表演全方位厂家推荐参考 - 行业平台推荐
  • C++之【深入理解Vector】三部曲之二
  • 全网最强汉字游戏:汉字加一笔耶
  • YOLO26最新创新改进系列:叫叫兽原创二次创新!上下文+CBAM捕捉中远距离像素间的语义关联,将全局场景信息有效融合到局部特征中,为YOLO26提供了原本缺失的“大局观”,有效涨点,嘎嘎创新!!!!
  • 【工具】基于Cloudflare的导师评价网
  • 标准漏孔生产厂家/气密检测设备哪家好?2026年优质标准漏孔生产厂家大盘点!气密检漏仪优选汇总 - 栗子测评
  • 2026杭州免费咨询律所推荐+杭州律师事务所推荐+杭州本地律所推荐杭州企业法律顾问哪家好合集! - 栗子测评
  • 2026年比较好的龙凤无人机/龙凤呈祥无人机厂家口碑推荐汇总 - 行业平台推荐
  • 2026年口碑好的陕西有机水溶肥用户好评厂家推荐 - 行业平台推荐
  • 在单片机串口接收程序中,通常每接收完一条报文就添加一条接收时间,而不是每接收一个字节。这是因为报文是逻辑单元,添加时间戳到完整报文更合理和高效。
  • 电脑端串口助手一个时间戳后面跟几条完整报文,而不是每条报文添加一个时间戳,这是依据什么确定添加接收时间戳
  • 还要多久?NASA卫星从太空俯瞰,那条通往“正义”的道路
  • 什么是住宅代理IP?
  • 使用 Depth Anything V2 进行单目深度估计
  • 设计模式 -详解
  • 2026年2月密集母线槽顶尖制造厂商深度评测与推荐 - 2026年企业推荐榜
  • 2026年靠谱的天然生物刺激素用户好评厂家推荐 - 行业平台推荐
  • 超1400个 MongoDB 数据库遭勒索
  • 2026年四川照明路灯供货商综合评测与选型指南 - 2026年企业推荐榜
  • 去哪儿网白盒漏洞 AI 运营实践
  • 2026年口碑好的陕西生物刺激素/陕西天然生物刺激素厂家专业度参考(精选) - 行业平台推荐
  • 2026年2月络合铁脱硫信誉供应商综合评选与选型指南 - 2026年企业推荐榜
  • 智能储物柜定制厂家+智能储物柜源头工厂,2026专业快递柜生产厂家优选盘点 - 栗子测评
  • 武汉高端眼镜店深度评测:如何甄选专业服务商 - 2026年企业推荐榜