当前位置：首页 > news >正文

腾讯混元 CL-bench：一次针对大模型上下文学习能力的工程级评测

news 2026/3/26 23:49:35

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

腾讯混元官网正式上线姚顺雨团队最新成果，发布了专门评测大语言模型能否从上下文（Context）中学习新知识并正确应用的基准CL-bench。

这是姚顺雨加入腾讯混元担任首席AI科学家后，其团队首次发布研究成果，也是腾讯混元技术博客首次公开。

60d81ddd-376f-49b1-a93e-6061c0104d2f

在评估大模型能力时，一个常见假设是：只要给够上下文，模型就能正确完成任务。

但在真实系统中，这个假设经常失效。模型“看过说明”“读过规则”，却依然输出错误结果。

腾讯混元最新公开的 CL-bench，并没有继续堆叠更难的推理题，而是直接针对这一问题做了一次系统性评测：模型是否真的具备从上下文中学习新知识并正确应用的能力。

一、真实系统里，大模型失败往往不是“不会推理”
大模型的失败模式并不陌生：

文档给了，但模型没用
规则写清楚了，但模型仍按旧知识执行
流程说明完整，但模型跳步、漏步
这些问题很难用“模型不够聪明”来解释。更接近事实的说法是：模型并没有真正把上下文当成“可学习的信息源”。

CL-bench 正是围绕这个问题设计的。

二、CL-bench 想评测的，不是知识量而是学习能力
CL-bench 的核心前提非常明确：

任务所需的全部信息，都在上下文中，且这些信息不在模型的预训练记忆里。

评测并不考察模型“知道多少”，而是考察它是否能够：

识别上下文中的新规则
构建临时知识结构
在后续任务中正确使用这些新知识
从目标上看，这是一种更接近真实工作场景的能力测试。

三、评测结果：主流模型在上下文学习任务上的真实表现
在 CL-bench 上，腾讯混元团队评测了 10 个主流大语言模型。

平均任务成功率：17.2%
表现最好的 GPT-5.1（高推理强度）成功率也仅为 23.7%

1a426a65-4280-4303-86cc-95db73fe3ff7

这意味着：即使上下文中明确给出了完成任务所需的全部信息，模型在大多数情况下仍然失败。

人工智能技术学习交流群
伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇

四、错误分析：模型更倾向于调用静态记忆，而不是学习上下文
从错误分布来看，失败的主要原因并不是信息缺失，而是：

忽略上下文中的关键定义
错误套用预训练阶段学到的通用知识
未能根据新规则调整推理路径
这说明一个重要事实：模型默认更信任“参数化记忆”，而不是输入中的新信息。

3a69b924-8050-434b-9537-0e9d0568ae37

五、长上下文与高推理强度，并不能解决根本问题
评测结果显示：

无法处理长上下文的模型，表现确实更差
但即便能处理长输入、严格遵循指令，仍会在大量任务中失败
提高推理强度对部分任务有帮助，但提升幅度有限，且不稳定。

这表明：上下文学习并不是“读得更久、想得更久”就能解决的问题。

六、归纳能力缺失，是当前模型最明显的短板
在 CL-bench 的几类任务中，模型在“演绎型任务”（按明确规则执行）上的表现明显好于：

从实验数据中发现规律
从环境反馈中总结结论
后者往往需要归纳能力，而这一能力在当前模型中表现最弱，部分任务成功率低于 10%。

七、无污染设计，暴露了上下文学习的真实下限
CL-bench 采用了严格的无污染设计：

大量虚构体系
对现实规则的系统性改写
小众或新兴内容
在不提供任何上下文的情况下，模型的成功率几乎为零。这说明模型无法通过“记忆猜测”完成任务，必须依赖上下文学习。

同时，超过一半任务存在强序列依赖，进一步放大了学习失败的后果。

八、对工程实践的启示：Context 并不是“给了就能用”
对做系统的人来说，CL-bench 的结论非常直接：

上下文不是外挂知识库
Prompt 不是学习机制
Agent 并不会自动“看文档做事”
如果模型不能稳定地从上下文中学习，新一代智能系统在复杂场景下仍然会频繁失效。

九、大模型“如何记忆”，正在成为系统级问题
腾讯混元团队在结语中提出一个判断：

大模型如何从上下文中保留、组织和巩固知识，可能会成为下一阶段的核心研究方向。

当模型的上下文学习能力变得可靠之后，人类在系统中的角色也会发生变化—— 从训练数据提供者，转变为上下文构建者与任务设计者。

推荐学习
AI智能体实战指南公开课，手把手带你从代码到内容，重塑研发与创作的全栈工作流。扫码进群，报名学习。

在那之前，CL-bench 提供了一个非常清晰的现实提醒：

Context 并不等于知识，给了上下文，也不代表模型学会了。

关于我们
霍格沃兹测试开发学社，隶属于测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开，内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设，包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设，同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法，沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外，学社还参与测试工程人才培养体系建设，面向高校提供测试实训平台与实践支持，组织开展 “火焰杯” 软件测试相关技术赛事，并探索以能力为导向的人才培养模式，包括高校学员先学习、就业后付款的实践路径。

同时，学社结合真实行业需求，为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务，用于个性化能力提升与工程实践指导。

查看全文

http://www.jsqmd.com/news/361942/

锅炉控制系统，西门子200smartPLC程序(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

2026年硕士论文维普AIGC查重率高？比本科更严的降AI攻略

政务大厅自助终端，涉外业务自主办

ubuntu格式化新磁盘并扩容到lvm

深入解析：使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

mybatis-plus 基于 Mapper接口的 update

西门子S7-1200 PLC 游泳池水处理远程控制设计文章(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

AI Agent设计模式 Day 1：ReAct模式：推理与行动的完美结合 - 详解

步向“数字一局”，中交一公局“语义 + AI”双引擎驱动经营管理智能化转型

当用户输入变成系统指令：我的数据库完成了一次“公开处刑“

树套树 | 题解：[ZJOI2013] K 大数查询

首信保险代理靠谱吗？值得推荐吗？电话号码是多少？ - 包罗万闻

DevOps平台行业实践案例：金融、政务、汽车行业成功经验分享

【国家级学会专委会主办】2026年智能检测与运动控制技术国际会议（IDMCT 2026）

海外求职机构有哪些？全球资源覆盖机构盘点（2026最新） - Matthewmx

ICLR 2026 | UIUC：一行代码，终结大模型“过度思考”！

数据库的索引和约束

生产物料分拣MCGS程序(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

配置html报告中的时间粒度granularity

Typora绘制-饼图象限图

第六章二叉树part01

实验室必备！高性价比纳米粒度仪选购推荐 - 品牌推荐大师1

cladue skills

48 小时做完并提审：待办事项微信小程序实战（VS Code + Codex 插件）

【IEEE出版 | EI检索】第三届生成式人工智能与信息安全国际学术会议（GAIIS 2026）

解决Abaqus分析不收敛问题的10个实用方法

telock0.98b1脱壳分析

完整演示 Git Flow 所有分支的创建与流转过程的实操命令示例

nginx的安装一个最简单的配置（windows和Centos）

相关文章：