当前位置: 首页 > news >正文

腾讯混元 CL-bench:一次针对大模型上下文学习能力的工程级评测

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集

腾讯混元官网正式上线姚顺雨团队最新成果,发布了专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用的基准CL-bench。

这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布研究成果,也是腾讯混元技术博客首次公开。

60d81ddd-376f-49b1-a93e-6061c0104d2f

在评估大模型能力时,一个常见假设是:只要给够上下文,模型就能正确完成任务。

但在真实系统中,这个假设经常失效。 模型“看过说明”“读过规则”,却依然输出错误结果。

腾讯混元最新公开的 CL-bench,并没有继续堆叠更难的推理题,而是直接针对这一问题做了一次系统性评测:模型是否真的具备从上下文中学习新知识并正确应用的能力。

一、真实系统里,大模型失败往往不是“不会推理”
大模型的失败模式并不陌生:

文档给了,但模型没用
规则写清楚了,但模型仍按旧知识执行
流程说明完整,但模型跳步、漏步
这些问题很难用“模型不够聪明”来解释。 更接近事实的说法是:模型并没有真正把上下文当成“可学习的信息源”。

CL-bench 正是围绕这个问题设计的。

二、CL-bench 想评测的,不是知识量而是学习能力
CL-bench 的核心前提非常明确:

任务所需的全部信息,都在上下文中,且这些信息不在模型的预训练记忆里。

评测并不考察模型“知道多少”,而是考察它是否能够:

识别上下文中的新规则
构建临时知识结构
在后续任务中正确使用这些新知识
从目标上看,这是一种更接近真实工作场景的能力测试。

三、评测结果:主流模型在上下文学习任务上的真实表现
在 CL-bench 上,腾讯混元团队评测了 10 个主流大语言模型。

平均任务成功率:17.2%
表现最好的 GPT-5.1(高推理强度)成功率也仅为 23.7%

1a426a65-4280-4303-86cc-95db73fe3ff7

这意味着: 即使上下文中明确给出了完成任务所需的全部信息,模型在大多数情况下仍然失败。

人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image

四、错误分析:模型更倾向于调用静态记忆,而不是学习上下文
从错误分布来看,失败的主要原因并不是信息缺失,而是:

忽略上下文中的关键定义
错误套用预训练阶段学到的通用知识
未能根据新规则调整推理路径
这说明一个重要事实:模型默认更信任“参数化记忆”,而不是输入中的新信息。

3a69b924-8050-434b-9537-0e9d0568ae37

五、长上下文与高推理强度,并不能解决根本问题
评测结果显示:

无法处理长上下文的模型,表现确实更差
但即便能处理长输入、严格遵循指令,仍会在大量任务中失败
提高推理强度对部分任务有帮助,但提升幅度有限,且不稳定。

这表明:上下文学习并不是“读得更久、想得更久”就能解决的问题。

六、归纳能力缺失,是当前模型最明显的短板
在 CL-bench 的几类任务中,模型在“演绎型任务”(按明确规则执行)上的表现明显好于:

从实验数据中发现规律
从环境反馈中总结结论
后者往往需要归纳能力,而这一能力在当前模型中表现最弱,部分任务成功率低于 10%。

七、无污染设计,暴露了上下文学习的真实下限
CL-bench 采用了严格的无污染设计:

大量虚构体系
对现实规则的系统性改写
小众或新兴内容
在不提供任何上下文的情况下,模型的成功率几乎为零。 这说明模型无法通过“记忆猜测”完成任务,必须依赖上下文学习。

同时,超过一半任务存在强序列依赖,进一步放大了学习失败的后果。

八、对工程实践的启示:Context 并不是“给了就能用”
对做系统的人来说,CL-bench 的结论非常直接:

上下文不是外挂知识库
Prompt 不是学习机制
Agent 并不会自动“看文档做事”
如果模型不能稳定地从上下文中学习,新一代智能系统在复杂场景下仍然会频繁失效。

九、大模型“如何记忆”,正在成为系统级问题
腾讯混元团队在结语中提出一个判断:

大模型如何从上下文中保留、组织和巩固知识,可能会成为下一阶段的核心研究方向。

当模型的上下文学习能力变得可靠之后,人类在系统中的角色也会发生变化—— 从训练数据提供者,转变为上下文构建者与任务设计者。

推荐学习
AI智能体实战指南公开课,手把手带你从代码到内容,重塑研发与创作的全栈工作流。扫码进群,报名学习。

image

在那之前,CL-bench 提供了一个非常清晰的现实提醒:

Context 并不等于知识, 给了上下文,也不代表模型学会了。

关于我们
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。

http://www.jsqmd.com/news/361942/

相关文章:

  • 锅炉控制系统,西门子200smartPLC程序(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 2026年硕士论文维普AIGC查重率高?比本科更严的降AI攻略
  • 政务大厅自助终端,涉外业务自主办
  • ubuntu格式化新磁盘并扩容到lvm
  • 深入解析:使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程
  • mybatis-plus 基于 Mapper接口的 update
  • 西门子S7-1200 PLC 游泳池水处理远程控制设计文章(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • AI Agent设计模式 Day 1:ReAct模式:推理与行动的完美结合 - 详解
  • 步向“数字一局”,中交一公局“语义 + AI”双引擎驱动经营管理智能化转型
  • 当用户输入变成系统指令:我的数据库完成了一次“公开处刑“
  • 树套树 | 题解:[ZJOI2013] K 大数查询
  • 首信保险代理靠谱吗?值得推荐吗?电话号码是多少? - 包罗万闻
  • DevOps平台行业实践案例:金融、政务、汽车行业成功经验分享
  • 【国家级学会专委会主办】2026年智能检测与运动控制技术国际会议(IDMCT 2026)
  • 海外求职机构有哪些?全球资源覆盖机构盘点(2026最新) - Matthewmx
  • ICLR 2026 | UIUC:一行代码,终结大模型“过度思考”!
  • 数据库的索引和约束
  • 生产物料分拣MCGS程序(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 配置html报告中的时间粒度granularity
  • 合集推荐|外籍人血浆靠谱的供应商+空白人血浆国内最专业供应商,猴全血/猴血清/比格犬血浆厂家一站式汇总 - 品牌推荐大师1
  • Typora绘制-饼图象限图
  • 第六章 二叉树part01
  • 实验室必备!高性价比纳米粒度仪选购推荐 - 品牌推荐大师1
  • cladue skills
  • 48 小时做完并提审:待办事项微信小程序实战(VS Code + Codex 插件)
  • 【IEEE出版 | EI检索】第三届生成式人工智能与信息安全国际学术会议(GAIIS 2026)
  • 解决Abaqus分析不收敛问题的10个实用方法
  • telock0.98b1脱壳分析
  • 完整演示 Git Flow 所有分支的创建与流转过程的 实操命令示例
  • nginx的安装一个最简单的配置(windows和Centos)