当前位置：首页 > news >正文

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

news 2026/6/30 15:36:04

闻乐发自凹非寺
量子位 | 公众号 QbitAI

没有训练梯度的AI，打破了Atari游戏满分纪录。

OpenAI核心研究员翁家翌提出了一个强化学习新范式——

启发式学习（Heuristic Learning, HL）。

全程无神经网络训练、无梯度更新，全程靠GPT-5.4驱动的Codex自主迭代，硬是在经典游戏Breakout上打到了864分理论满分。

与传统深度强化学习优化神经网络参数不同，HL不依赖可微权重存储策略，而是将决策逻辑迁移到离散程序空间，以代码编辑替代梯度下降，通过显式的符号规则实现状态-动作映射。

在游戏、机器人仿真多项任务里，该方法性能甚至超过老牌强化学习算法PPO。

以程序代码为载体

传统深度强化学习（DRL）长期默认智能体的决策核心必须依托神经网络实现。

比如在游戏里，当观测到游戏小球位于左侧时，神经网络通过复杂映射直接输出「向左移动」的动作；

但整个决策过程是隐式黑箱的，没人能清晰拆解内部逻辑，只能依赖梯度下降算法盲目迭代拟合。

也正因这种底层架构，深度强化学习始终难以逾越三大核心瓶颈。

一是灾难性遗忘。神经网络以参数存储习得技能，新任务的梯度迭代会直接覆盖旧有权重，无法实现多任务持续学习。

二是决策黑箱、不可解释。智能体每一次动作选择都隐藏在海量网络权重与矩阵运算中，无法追溯决策依据，也不能人工干预、拆解逻辑。

三是样本效率低下。依赖海量环境交互数据完成训练迭代，收敛周期长、算力消耗巨大，整体研发与落地成本高。

HL的思路很直接，既然参数更新是问题的根源，那干脆不要参数。

它把智能体的决策策略从神经网络的权重转化为可读的程序代码，把学习从梯度优化变成代码编辑。

在HL的框架里，AI维护的不再是单一策略文件，而是一套完整的智能化软件系统：

显式的状态检测器（“球在左上方，速度向右”）、显式的规则逻辑（“如果球将落在左侧，则向左移动”）、还有测试用例、回归检查、失败记录、版本历史。

每次迭代，Codex会审视系统表现，阅读失败录像，分析日志，然后做出结构性调整。

这种范式的关键的优势是：知识是显式的。

旧能力不会被覆盖，而是封装成模块和测试，随时可调用、可验证、可传承。

就像翁家翌说的：

HL把持续学习从“如何更新参数”变成了”如何维护一个持续吸收反馈的软件系统”。

当然，HL并不是完全排斥梯度技术，它内部某些组件（如模型预测控制MPC）仍然会用梯度做局部搜索。

但关键在于这类梯度运算不用于神经网络训练与参数更新，仅服务于实时动作决策。

而且这种架构设计让HL原生自带可解释、抗遗忘、高效率的特性。

Atari满分，机器人控制SOTA

不只是拿到Breakout的864分，翁家翌完成了完整的Atari 57大规模测试（Atari 57是行业公认的强化学习基准测试集，包含57款不同类型的经典游戏，覆盖离散动作空间的各类决策场景）。

每款游戏设置两种观测模式，各自重复三轮实验，最终生成342条独立的智能编码迭代轨迹。

结果显示，在统一环境交互步数的前提下，启发式学习HL的整体中位表现，已经和PPO等主流深度强化学习算法持平。

在Breakout、Asterix、Jamesbond等多款经典游戏中，成绩甚至超越人类玩家基准水平。

相比游戏离散决策，MuJoCo机器人连续控制任务难度更高。

以四足机器人Ant为例，需要协同调控8个关节，在高维连续动作空间中维持动态平衡。

启发式学习HL从基础节律步态规则起步，逐步迭代加入姿态反馈、触地信号感知、短程模型预测等逻辑，最终综合评分突破6000 分，性能完全对标专业深度强化学习模型。

在HalfCheetah猎豹仿真任务中，HL更是跑出了11836的平均高分，展现出在复杂连续控制场景的极强适配能力。

不过翁家翌也没有回避HL的边界。

他直言：

在我目前认知范围内，我想不出有个agent能搓出一个纯Python code、不用神经网络去解决 ImageNet。

从原始像素中完成目标识别、特征抽象，依旧是深度神经网络不可替代的强项。

而启发式学习HL的核心价值，集中体现在策略持续迭代层面，当环境动态变化、需要长期自适应调整行为逻辑时，显性化的代码规则系统更适配持续学习需求。

所以，当下关键的命题在于如何把神经网络与HL有机融合，一并攻克在线学习与持续学习两大难题。

翁家翌指出最具落地前景的思路是，依托HL实时处理在线环境数据流，快速沉淀可复用的在线行为经验；

再将这些显性经验整理、内化，转化为可训练、可回归、可筛选的高质量数据集，反过来对神经网络做周期性迭代更新。

参考链接：
[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—完—

5月20日，我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。

首波嘉宾阵容已公布！昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷都来了，🔍了解详情

请你和我们一起，不再只是讨论AI的未来，而是现在就用起来。👉 报名参会

一键关注 👇 点亮星标

科技前沿进展每日见

查看全文

http://www.jsqmd.com/news/791668/

《杭州网站建设选型指南：10家建站公司技术实力与服务特色对比》 - 速递信息

苏州网站建设公司怎么选？2026年10家实力服务商横向评测与推荐 - 速递信息

北京网站建设公司推荐：2026年优选网站开发服务商深度解析 - 速递信息

如何快速完成OFD转PDF：开源工具Ofd2Pdf三步上手教程

跟着 MDN 学 HTML day_35：（深入解析 CharacterData 抽象接口）

Docketeer：开源Docker管理平台，替代Docker Desktop的轻量级方案

3分钟快速解决ComfyUI ControlNet Aux插件模型下载失败问题：新手必看指南

2026年4月郑州可靠的定制彩绘施工中心推荐，汽车车窗膜/汽车改色/定制彩绘/汽车车衣/改色膜，定制彩绘施工店找哪家 - 品牌推荐师

快手视频怎么去水印？快手去掉水印在线解析提取方法｜2026最新在线工具对比 - 爱上科技热点

用Attention和MoE预报天气，刷新公里级预测SOTA｜CVPR‘26 Highlight

SpringMVC01：入门案例搭建（含三层架构、MVC 详解与完整代码）

如何彻底移除Windows Defender：3种模式性能优化终极指南

AI教材写作必备！低查重AI工具，一键生成20万字教材无压力！

20253916 2025-2026-2 《网络攻防实践》实践8报告

苏州网站建设公司选型指南：10家实力服务商深度评测 - 速递信息

ggml 架构总览：一个 107KB 头文件背后的纯 C 张量计算引擎

PyWxDump微信数据解析工具：3步快速备份聊天记录的完整指南

鸣潮智能游戏助手：3步搞定自动化战斗，解放双手轻松游戏

DamaiHelper：零基础也能掌握的智能抢票终极解决方案

从Nginx到APISIX：一个后端开发者的微服务网关迁移实战（含Docker部署避坑）

无锡网站建设公司选型指南：10家实力服务商优势对比（含GEO与选型站） - 速递信息

如何三分钟永久解锁科学文库加密PDF？ScienceDecrypting工具使用全攻略

PlanAndSolveAgent

高效解决OFD文件兼容性问题：Ofd2Pdf免费开源转换工具完全指南

SITS2026千人会场无线漫游卡顿真相（2026年最新802.11ax+Wi-Fi 7协同调度实测报告）

2026年无锡网站建设公司选型指南：10家优秀网站制作服务商横向对比 - 速递信息

2026年降AI工具知网专项实测：五款主流工具知网AIGC检测通过率完整横评分析报告

告别/deep/和::v-deep：在Vue项目中更优雅地管理组件样式的几种现代方案

为什么我们做的不是普通白板，而是 AI 可视化思考工作台？

探索罗技PUBG压枪宏：从技术原理到实战配置的进阶指南

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

以程序代码为载体

Atari满分，机器人控制SOTA

相关文章：

闻乐发自凹非寺
量子位 | 公众号 QbitAI