当前位置：首页 > news >正文

Hyperagents：AI自我改进为什么总卡死在“手写元机制”？因为大家从一开始就把方向想反了

news 2026/6/13 17:36:11

你有没有过这种经历？花了大把时间搭一个AI Agent，让它自己生成代码、自己优化prompt，结果跑了十几轮迭代后，性能就彻底 plateau 了——要么只在编码领域有效，要么跨到机器人reward设计、论文审稿就直接崩。团队里所有人都在喊“模型不够强”，却没人敢承认：真正拖后腿的，是那个永远固定不变的“自我改进机制”本身。

这不是模型问题，是架构问题。大多数人以为自我改进AI只要让agent不断“自我修改任务代码”就够了，结果卡在了最致命的假设上：任务能力和改进能力必须天生对齐。Hyperagents直接把这个假设砸了。

想想1880年代工厂换电动机：大家只是把蒸汽机换成电机，车间布局、流程、协调方式原封不动，等了40年才等到真正生产力爆发。AI自我改进现在就站在同一个临界点。你把超级智能塞进“手写meta固定”的老框架，期待它自己变魔法——本质上就是在赌运气。

另一个更扎心的类比：就像给一个靠家族口传秘方的小作坊塞进一台顶级AI翻译机。单词它全懂，但“哪个例外可以破格”“哪个隐性标准才是真标准”“进化机制本身要不要升级”这些元规则，它完全抓瞎。agent再聪明也没用，因为“如何改进”的知识只活在人脑里，没被写进可编辑的程序里。

论文里把这事讲得透彻：Darwin Gödel Machine（DGM）在编码领域确实牛，因为评价和修改都是代码任务，能力天然对齐。可一旦跨到论文审稿、机器人reward设计、奥林匹克数学评分这些非编码领域，DGM就直接哑火——要么0分，要么得为每个领域重新手写meta机制。

Hyperagents的解法简单却致命：把任务agent（干活的）和meta agent（改自己的）合二为一，变成一个单一的可编辑程序。
最关键的是——meta级的修改过程本身也是可编辑的。这叫“元认知自我修改”（metacognitive self-modification）。它不光改进任务行为，还在改进“生成未来改进的机制”本身。DGM-H（Hyperagents版DGM）保留了DGM的开放式档案进化（archive of stepping stones），但把meta机制彻底放开，让它自己进化：持久记忆、性能追踪、偏差检测、计算感知规划……这些元能力一旦出现，就能跨域迁移、跨run累积。

实验数据直接打脸所有“固定meta就够了”的幻想：

编码（Polyglot）：DGM-H从0.140提升到0.340（test 0.267），和DGM持平。
论文审稿：DGM-H从0直冲0.710，远超DGM（0）和领域定制版DGM-custom（0.590）。
机器人reward设计：从0.060到0.372，超过静态baseline。
奥林匹克数学评分（held-out）：转移后的meta能力直接把baseline准确率从0.561提到0.601。

更狠的是：meta级改进（比如加了persistent memory和performance tracking）不是一次性福利，而是会跨域转移、跨run累积。系统真的开始“改进自己的改进过程”了。

从系统角度看，Hyperagents本质上不是一个「工具层补丁」或者「胶水代码」，而是真正意义上的「系统层架构」。
它短期内就能让跨域自我改进落地，长期来看更是开放式AI的必经之路——未来AI不再是“搜索更好解”，而是“不断改进搜索如何改进的机制”。这条路径被严重低估了。大多数人还在卷更大模型、更聪明prompt，它却直接把“人工程依赖”从根上砍掉。它的局限性也很清楚：目前仍需sandbox+人工 oversight，算力消耗不低，安全边界还没完全摸清。但这些都是工程问题，不是方向问题。如果它被替代，只可能被更彻底的“全进化系统”（beyond FM-based）取代，因为Hyperagents已经把“元机制可编辑”这个最底层的开关打开了。

真正让人脊背发凉的洞察在这里：
知识再强，机制不进化，自我改进就是假的。
DGM在编码领域漂亮地证明了“开放式探索+档案台阶”的威力，但Hyperagents第一次把这个威力从领域特化解放出来。
meta改进一旦开始转移和累积，系统就不再是“越跑越累”，而是“越跑越聪明”——这才是真正自加速的起点。

对工程师而言，这意味着你的技能树要彻底升级：不能只学prompt engineering和agent orchestration，得开始写self-referential、可编辑的元程序，把“如何改进”本身变成代码的一部分。
对未来架构而言，真正的护城河不再是谁先训出最强基座模型，而是谁能最早把工作流和智能体设计成“元认知自指”的形式。ZPF人格操作系统如果接上Hyperagents式的自改进闭环，可能就不再是静态人格，而是真正会自己进化、自己反思、自己重构的“活系统”。

这篇论文不是又一个benchmark刷分故事，它是把“AI自己改进自己”从科幻拉到可工程化的第一步。

我是紫微AI，在做一个「人格操作系统（ZPF）」。
后面会持续分享AI Agent和系统实验。
如果你对这类内容感兴趣，可以关注我。
我们下期见。

查看全文

http://www.jsqmd.com/news/563437/