当前位置: 首页 > news >正文

AI大模型不会学习?腾讯姚顺宇团队来解答

腾讯新上任的混元首席AI科学家姚顺宇,带着他的团队发了一份研究,核心观点就一句话:​​ChatGPT、Claude这些大模型,根本不会从上下文里学习​​。

你有没有遇到过这种情况:跟AI聊了半小时,把背景信息、前置条件、参考文档全喂给它了,结果它给你的回复像是第一次聊天?

我有一个做产品经理的朋友,前几天跟我吐槽说,他花了三天写的需求文档全扔给了AI辅助开发,结果AI生成的功能方案跟文档里写的完全是两码事。

他当时就懵了:这些字它是一个都没看见吗?

后来我发现,遇到这种事的还不止他一个。

一个让业内哗然的结论

这段时间,AI圈被一个报告炸得够呛。

腾讯新上任的混元首席AI科学家姚顺宇,带着他的团队发了一份研究,核心观点就一句话:ChatGPT、Claude这些大模型,根本不会从上下文里学习

你以为它在理解你?

其实它只是在翻旧账。

这个姚顺宇是什么人?

名字可能没多少人听过,但他搞出来的东西你肯定用过。

Agent设计必用的ReAct框架,提示词工程里大名鼎鼎的思维树技巧,都是他在普林斯顿读博士时搞出来的。

后来在OpenAI参与了Operator和Deep Research的开发,最近被腾讯重金挖来,直接出任混元首席AI科学家。

他上任后抛出的第一个炸弹,就是这份让很多人坐不住的研究报告。

实验结果让所有人意外

姚顺宇团队做了个看起来很简单的实验:给AI提供完整的资料,答案就明明白白写在上下文里,让它去解决问题。

结果呢?

测了10个顶级大模型,平均正确率只有17%。最强的是GPT-5.1,也只做对了不到四分之一。

这意味着什么?

你把攻略塞到AI嘴里,它还是能给你做错八成。

问题出在哪里?

报告指出,大模型有一个致命缺陷——它只会调用训练时背过的、见过的那些知识,对于你现场给的资料,它根本不会学

人类遇到新问题会现学现用,但AI不会。它就像一个翻完课本就忘的学生,你给他再多的补充材料,他左耳进右耳出。

这个结论为什么重要?

因为现在国内外的AI产品都在卷上下文长度、上下文设计。但按照这份报告的说法,哪怕你把上下文塞得满满当当,AI也很难根据上下文里的信息输出答案。尤其是需要注意到上下文细节、跨区域检索这些复杂场景时,表现更是拉胯。

所以有时候你觉得AI不听话,不一定是你的prompt写得烂,真相可能是它根本没读进去你给的东西。

这是当前所有大模型最核心的瓶颈之一。

姚顺宇团队预测,解决这个学习能力的问题,将是2026年AI的核心战场。

结语

不过,我这两年的实际体感是,测评榜单和真实使用体验之间往往有差距

就拿Gemini 3 Pro来说,编程能力测评一度排第一,但实际用起来完全是另一回事。姚顺宇团队的实验结果,跟你的真实体验一致吗?

至少在我这里,文案生成这个领域还是有点偏差的。

我们给客户设计的智能体,多数情况下还是能比较自然地把上下文信息融合进去的。

当然,这可能也跟我们使用场景有关,不一定具有普遍代表性。

你怎么看?有没有遇到过AI翻旧账而不是学新东西的情况?

http://www.jsqmd.com/news/410380/

相关文章:

  • 2026年有实力的青少年儿童视力防控,青少年儿童视力斜弱视防护,青少年儿童视力养护公司优质供应商推荐清单 - 品牌鉴赏师
  • 好写作AI:论文排版太难?AI一键搞定格式
  • OpenClaw + Codex/CC :单人用Agent集群替代整个开发团队
  • 基于行为特征与动态沙箱的AsyncRAT变种检测及防御机制研究
  • Java 变量命名规则详解
  • 好写作AI:导师批注看不懂?AI帮你解读
  • 基于SSM的课堂信息管理系统[SSM]-计算机毕业设计源码+LW文档
  • Nginx 报413 request entity too large 解决办法
  • 多模态DeepResearch,成了!
  • 好写作AI:从3天到3小时:论文初稿速成法
  • 基于SSM的喀什共享单车管理系统[SSM]-计算机毕业设计源码+LW文档
  • 2026年靠谱的三轴数控平面磨床/全自动数控平面磨床生产厂家采购指南帮我推荐几家 - 行业平台推荐
  • 音乐格式转换与加密文件解码全攻略:QMCDecode实现跨平台播放自由
  • 基于SSM的旅游服务网站[SSM]-计算机毕业设计源码+LW文档
  • 浏览器内浏览器攻击机制分析与多维防御体系构建
  • 2026年修路用灰厂家推荐:道路用灰/生石灰粉及路基稳定专用灰源头厂家精选 - 品牌推荐官
  • 液冷微通道散热流量与传热的相关性研究
  • 深入探索Ryzen处理器调试:SMUDebugTool技术解析与应用指南
  • FastAPI 深度解析:超越基础语法的企业级实践与机制剖析
  • VLC播放器界面个性化定制的5种创新解决方案
  • 3大核心优势!Lumafly让《空洞骑士》模组管理效率提升80%
  • Zookeeper 3.2.0 之后最被低估的特性:Chroot 命名空间隔离
  • 好写作AI:论文查重前,先用AI自查一遍
  • 为什么 Ubuntu 下的软件都指向同一个文件?深挖 Snap 的“变脸”术
  • 摆脱论文困扰! 降AIGC平台 千笔·降AIGC助手 VS 灵感风暴AI
  • 2026卫生高级职称宝藏题库分享,高效刷题上岸攻略 - 医考机构品牌测评专家
  • Unity资源处理效率革命:UABEA技术突破与实战指南
  • 好写作AI:数据不会分析?AI来当参谋
  • 2026年评价高的EG屹晶微DCDC电源管理芯片/EG屹晶微PFC/LLC控制器芯片哪家靠谱实力工厂参考 - 行业平台推荐
  • 如何盘活闲置的京东e卡?解锁这张卡券的隐藏价值 - 京顺回收