当前位置: 首页 > news >正文

图灵奖得主Sutton新作:AI的下一步,是走向“生成认知”

世界本身就是它最好的模型

从 LLM 的超长文本处理、视频生成模型的以假乱真、Agent 自主规划与执行的日趋成熟,到 VLA、世界模型等开始进入物理世界,AI 正在不断拓宽其能力边界。

模型版本的迭代周期不断缩短,行业新闻与技术讨论的热度居高不下。在这样一往无前的氛围中,我们似乎离 AGI 近在咫尺。

但一个疑问始终有待解答:这些服务器里的 AI,真的「理解」这个世界吗?或者说,它们展现出的智能,与生物在真实物理世界中生存所展现出的认知,在本质上是否同一?

近期,学者 Banafsheh Rafiee 与强化学习之父 Richard S. Sutton 共同撰写了一篇论文,对当前主流人工智能(包括大语言模型、纯视觉模型乃至传统的符号系统)所依赖的「被动表征」路线进行了系统性的反思与批判,并将认知科学中的「生成认知」(Enactive Cognition)框架引入 AI 领域。

该研究主张感知、认知和行动是相互建构的不可分割的整体,探讨了 AI 如何从依赖静态数据的被动信息处理系统,走向能够通过环境互动、具身行动与自我评估获得经验的智能体。

论文标题:Toward Enactive Artificial Intelligence

世界本身就是它最好的模型

当前相当一部分主流 AI 发展,仍然沿袭了一种被称为「表征主义」的经典观念。

在传统人工智能范式中,无论是早期的符号系统,还是今天的深度学习模型,感知通常被理解为一种「先输入、再处理、后行动」的线性过程:系统先接收外部信号,再将这些信号加工成内部表征,随后基于这些表征进行推理和决策,最后输出动作。

在这种观点下,智能系统就像一个中央处理器。它需要在内部构建一个尽可能精确的「世界副本」,感知是否成功,取决于这个内部模型能否准确还原外部现实。

但 Rafiee 和 Sutton 指出,这种思路本身存在根本局限。真实世界是开放的、动态的、无限复杂的,没有任何一个有限的内部模型能够完整捕捉它的全部状态。世界并不是一组等待被编码的静态特征,而是一个会随着智能体的行动、上下文和互动历史不断变化的可能性空间。

因此,论文引入了机器人学家 Rodney Brooks 的一句名言:「世界本身就是它最好的模型。」

这句话的含义是,最可靠、最新鲜、最丰富的信息并不在智能体内部,而始终存在于外部世界之中。智能体不应试图完全用内部表征替代现实,而应保持与环境的持续互动,在实时反馈中调整行动、校准预期并形成理解。

AI 不只是「看见世界」,还要「在行动中理解世界」

「生成认知」来自认知科学中的生成主义(enactivism),其核心思想是:认知不是对一个预先存在的客观世界进行内部复制,而是在具身主体与环境的互动中被生成出来的。

它吸收了现象学、格式塔心理学和生态心理学的思想。现象学强调,感知不是在头脑中重建世界,而是主体在生活经验中直接与世界相遇;吉布森的生态心理学则提出「示能」概念,认为环境中的物体是否「可抓握」「可攀爬」「可通过」,取决于它与具体身体能力之间的关系。

也就是说,世界并不是以抽象特征的形式被动呈现给智能体,而是在智能体能够采取的行动中变得有意义。

将这些思想引入 AI,Rafiee 和 Sutton 提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性,以及具身性。它们共同指向同一个判断:智能不是对世界的静态表征,而是在环境中行动、反馈和自我维持的过程。

经验

在生成认知框架中,经验并不等同于数据。真正的经验来自智能体与环境之间持续、实时、相互影响的互动。智能体不是被动接收已有数据,而是在行动、反馈、失败和修正中不断获得技能。

这也揭示了当前主流机器学习的局限。监督学习依赖人类预先收集和标注的数据,模型学习到的只是经验留下的痕迹,而不是自身亲历的经验。相比之下,强化学习更接近生成认知的要求:智能体通过主动探索环境、接收反馈并调整策略,在互动中持续生成新的数据和能力。

换句话说,一个真正自主的系统,不能永远依赖人类准备好的静态数据集,而必须能够通过自身经验不断扩展能力边界。

感知与行动的不可分割性

生成认知反对把感知和行动拆成两个独立模块。感知并不是行动之前的准备环节,感知本身就是一种行动能力。

人类并不是被动接收画面。我们通过眼球、头部、身体和手部的运动,不断改变输入,进而判断空间、声音、纹理和物体形态。也就是说,感知不是等待信息进入大脑,而是通过有目的的行动揭示环境结构。

这对今天的视频生成模型尤其重要。纯观察系统也许能够学会大量视觉规律,比如预测物体运动或红绿灯变化顺序,但这不等于真正理解物理世界。一旦环境出现异常,它们往往缺乏主动干预、试错和纠正的能力。

生成认知强调的正是这一点:智能体不仅要预测世界如何变化,还要能够通过行动改变世界,并在反馈中形成理解。

自主性

生成认知认为,智能体不是简单响应外部刺激的机器,而是一个自我组织、自我维持的系统。环境中的事物之所以有意义,是因为它们关系到智能体自身的目标、需求和持续存在。

这意味着智能体需要拥有某种内在的成败标准。食物、障碍物、能量之所以重要,并不是因为它们天然重要,而是因为它们会影响智能体能否继续行动、维持自身状态或完成目标。

从这个角度看,当前许多 AI 系统仍然缺乏真正自主性。监督学习依赖外部标签,大语言模型主要模仿人类数据模式,传统规划系统的目标也多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估,但大多数奖励函数仍由外部设计者指定,并不是从智能体自身的自我维持过程中自然产生。

因此,当前 AI 距离真正的自主性仍有距离。

具身性

生成认知的最后一个关键是具身性。身体并不是智能系统完成推理之后才使用的执行工具,而是感知和理解世界的前提。

身体的形态、传感器位置、运动能力和行动方式,会直接决定智能体如何探索环境,也决定世界以何种方式对它呈现意义。同一把椅子,对人类是「可坐的」,对蚂蚁可能是巨大的障碍物,对机器人则取决于它是否具备相应的高度、关节结构和控制能力。

这解释了为什么许多主流 AI 仍然是「离身」的。它们可以处理海量文本、图像和视频,却没有通过自身运动改变感知输入的能力,也无法在真实环境中主动探索和适应变化。

即使在机器人领域,许多系统仍把感知、规划和控制拆成独立模块,身体只是执行策略的硬件平台,而不是塑造认知本身的核心条件。

强化学习的下一步?

在经验、感知——行动、自主性和具身性这四个维度上,Rafiee 和 Sutton 对当前 AI 范式给出了一个清晰判断:主流 AI,尤其是大语言模型和纯视觉模型,仍然主要停留在被动表征和模式预测层面。

它们可以生成极其逼真的文本、图像或视频,也可以在复杂任务中展现出强大的推理与规划能力,但只要缺乏与环境的持续互动、缺乏基于自身行动后果的评估、缺乏真正具身的探索过程,它们距离「理解世界」仍有关键差距。

相比之下,强化学习与生成认知之间存在更强的结构共鸣。RL 强调行动、反馈、探索、适应和长期评估,这些都使它成为最接近生成认知理念的 AI 分支。

但这种接近并不意味着等同。当前强化学习仍然存在三重不足:第一,奖励函数大多由外部指定,而非来自智能体自身的自我维持和组织结构;第二,感知和行动在许多系统中仍被拆分为相对独立的步骤;第三,具身性常被当作工程约束,而不是认知形成的基础。

因此,强化学习也需要进一步演进:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。

原文链接:图灵奖得主Sutton新作:AI的下一步,是走向“生成认知”-36氪

http://www.jsqmd.com/news/943174/

相关文章:

  • Flink零基础入门,一篇吃透Flink核心概念+本地环境搭建+首个实战程序
  • 免费小说资源终极指南:开源书源助你告别书荒
  • 郑州装修公司推荐|2026年6月 避坑必看!本土靠谱装修怎么选,这 8 大雷区千万别踩 - 博客万
  • Spring个人知识体系总结
  • 2026年PDF转Word免费详细教程:无需注册的在线工具和小程序推荐 - AI测评专家
  • 四川高校科技成果转化如何避坑?从技术评估到交易撮合的深度解构
  • 如何快速优化AI输入:Jina Reader智能网页转换工具完全指南
  • 云尖信息与杭州电子科技大学共建就业实习基地,深度赋能产教融合新生态
  • Matlab纯代码实现CVRP遗传算法求解:含路径可视化与参数自定义
  • 颠覆性抖音内容管理革命:douyin-downloader让你的创作效率提升300%
  • 贵阳花溪区创源靠谱吗?2026年6月聚焦铝车身冰雹坑专修工艺,深挖原厂漆无损精修硬核实力 - 十大排行榜推荐
  • 2026 南京钻石回收怎么选?梳理靠谱钻石回收渠道 - 薛定谔的梨花猫
  • Libre Barcode革命:让条码生成像打字一样简单的终极解决方案
  • 实测对比:用vLLM直接推理LoRA微调后的模型,比LLaMA-Factory的API部署快5倍
  • 基于Arduino与步进电机的自动喂食机DIY:从原理到实践
  • 北京西装定制权威指南:2024年5家顶级店铺专业测评 - 西装爱好者
  • 大模型也要翻资料:一篇读懂 RAG 检索增强生成
  • Windows 11系统优化终极指南:用开源工具Win11Debloat重获清爽体验
  • 海外直播拍卖订单履约难点:跨境链路协同与流程优化
  • 机器人仿真技术解析:Gazebo Sim 开源仿真平台深度剖析
  • 用剪映做短视频,别死磕基础操作,选对工具和素材,真的能少走 90% 的弯路
  • VisionPro棋盘格校准工具CogCalibCheckerboardTool保姆级教程:从选板到实战测量
  • 干货合集:2026年最值得信赖的专业AI论文平台
  • 多模态不再是口号:Gemini 3.5 原生多模态能力的落地价值解析
  • 私有化音视频系统/视频高清直播点播EasyDSS重塑企业视频门户新生态
  • 【上饶 + 闲置金银变现 + 靠谱回收门店五强榜单】 - 余生黄金回收
  • Python抓取抖音评论的3种方案(2026版)
  • 欢迎来到英飞凌TC3XX芯片的世界
  • 如何快速降低电脑噪音:FanControl风扇控制终极指南
  • 企业级项目管理系统Leantime的生产环境部署架构设计