【AI】AI agent 自进化方案大全
2026年AI自学习进化已从学术概念进入工程化竞赛阶段。以下从科研、开源、闭源三个维度系统梳理:
一、科研前沿(实验室/论文/学者)
核心范式:可验证域自改进(Verifiable Domain Self-Improvement)
2025-2026年,三个独立团队 converged on 同一架构赌注:能重写自身源代码以提升性能的Agent。关键约束是——它们都运行在结果可验证的域(代码、数学、科学模拟),这是自改进闭环得以成立的前提。
| 项目/论文 | 团队/学者 | 核心机制 | 突破 |
|---|---|---|---|
| AlphaEvolve | Google DeepMind | 进化搜索 + Gemini作为变异引擎 | 发现优于Strassen 1969年突破的矩阵乘法算法;回收Google全球0.7%计算资源;FlashAttention 32.5%加速 |
| SWE-RL | Meta Superintelligence Labs (2025.12) | 自博弈:单一LLM交替扮演bug注入者和修复者 | SWE-bench Verified +10.4分,无需人工标注数据 |
| MAE / SAGE | 多智能体进化 (2025.10-2026.3) | 三/四智能体协同进化(Proposer/Solver/Judge/Critic) | Qwen2.5-3B上平均提升4.54%,无人类监督 |
| DeepSWE | Agentica + Together AI (2025.7) | 纯RL训练开源编码Agent | Qwen3-32B,6天64 H100,SWE-bench Verified 59%,全开源 |
| Gödel Agent | ACL 2025 | 运行时monkey patch修改自身学习算法 | 自指AI实现递归自改进 |
| DGM (Darwin Gödel Machine) | Sakana AI / Jeff Clune | AI自主重写优化函数和代码,benchmark验证 | 性能提升100%,可无限循环运行 |
| ShinkaEvolve / CodeEvolve | Sakana AI / 开源社区 | 开源版AlphaEvolve架构 | 30代发现超越DeepSeek SOTA的MoE负载均衡损失函数;CodeEvolve在4问题上超越AlphaEvolve |
| EvoAgentX | EMNLP 2025 | 自动化进化Agent工作流框架 | 完整自进化Agent工具包 |
| “From procedural skills to strategy genes” | arXiv 2604.15097 (2026) | 经验驱动的测试时进化 | 程序技能→策略基因的理论框架 |
关键学者与人物
| 学者 | 机构/背景 | 贡献 |
|---|---|---|
| Demis Hassabis | Google DeepMind CEO | WEF 2026公开承认:“自改进循环能否在没有人类参与的情况下闭合,仍有待观察” |
| Dario Amodei | Anthropic CEO | 同样公开承认Anthropic正在推进递归自改进研究 |
| Andrej Karpathy | 前OpenAI/Tesla | 2026年3月开源630行自研究脚本:2天700实验,发现20个优化,GPT-2训练时间从2.02h→1.80h(11%提升) |
| Jeff Clune | Sakana AI | DGM(Darwin Gödel Machine)推动者,认为"我们就在递归自我进化系统的拐角处" |
| 诸葛鸣晨 | KAUST/智源 | 2023年MetaGPT附录中精准预测递归自改进方向,2026年推动ICLR专门workshop |
| Nathan Lambert | AI2 | 提出"有损自我进化"(Lossy Self-Improvement)对立概念,警示自我改进的信息损耗问题 |
学术会议与标准
- ICLR 2026(里约热内卢,4月26-27日):首次举办Recursive Self-Improvement专门workshop,标志着该领域从概念验证进入工程化竞赛
- NIST 2026年2月:启动自主AI系统正式标准倡议,征集Agent安全风险、身份模型、部署考虑的公众意见
- GUARDRAILS.md协议:结构化"Signs"跨上下文重置持久化,防止Agent重复已知失败
二、开源方案
核心项目
| 项目 | 组织 | stars | 核心机制 | 状态 |
|---|---|---|---|---|
| Hermes Agent | Nous Research | 144K+ (2026.5) | GEPA(Genetic-Pareto)自改进 + 三层记忆 + 自动技能生成 | 生产就绪,OpenRouter日token量第一(224B/天) |
| OpenClaw | 开源社区 | 345K | 多通道Agent系统,50+消息集成 | 生态最广,但2026.3遭遇9个CVE和ClawHavoc供应链攻击 |
| DeepSWE | Agentica + Together AI | — | 纯RL训练,全开源(权重/代码/训练日志/评估) | SWE-bench Verified 59%,证明开源可复制闭源能力 |
| OpenEvolve | 社区 | — | AlphaEvolve核心MAP-Elites种群数据库和级联评估器的开源实现 | 架构复现,降低进化搜索门槛 |
| CodeEvolve | 开源 | — | 使用开源权重LLM backbone超越AlphaEvolve | 在4个问题上建立新记录 |
| EvoAgentX | EMNLP 2025 | — | 完整自进化Agent工作流自动化框架 | 工具包级别 |
| Karpathy Autoresearch | Andrej Karpathy | — | 630行Python,修改训练代码→运行实验→评估→迭代 | 极简哲学,证明自改进不需要复杂框架 |
Hermes Agent 技术细节(最具代表性)
GEPA机制:不同于RL将执行痕迹压缩为单一标量奖励,GEPA使用LLM读取完整trace(错误消息、性能分析数据、推理链),提出针对性修复。ICLR 2026 Oral接收。
三层记忆架构:
- 短期上下文(当前会话)
- 持久长期对话(FTS5全文检索)
- 程序性技能记忆(LLM摘要)
自改进闭环:解决任务 → 写入可复用技能文档 → 存储结果到持久记忆 → 下次调整方法。拥有20+自生成技能的Agent在重复任务上快40%。
模型无关性:支持15+ LLM提供商(OpenRouter 200+模型、NVIDIA NIM、Kimi、MiniMax等),可会话中实时切换模型。
三、闭源方案(大公司)
| 公司/产品 | 核心机制 | 生产状态 | 关键数据 |
|---|---|---|---|
| Google DeepMind AlphaEvolve | 进化搜索 + Gemini 2.0 Flash/Pro作为变异引擎 | 生产部署超1年 | 回收0.7%全球计算资源;23% Gemini kernel加速;32.5% FlashAttention加速;发现优于Strassen的矩阵乘法算法 |
| OpenAI GPT-5.3 Codex | 自开发Agent:参与自身调试、部署管理、测试评估 | 已发布(2026.2.5) | Terminal-Bench 2.0: 77.3%;SWE-bench Pro: 57%;比前代快25%,token减半;首个被OpenAI分类为"高"网络安全风险的模型 |
| OpenAI Codex / Subagents | 云沙箱 + 并行执行 + 迭代细化 | 2026.3 GA | 基础设施支持自改进循环,OpenAI Self-Evolving Agents Cookbook发布 |
| Anthropic Claude Code / Opus 4.6 | 长时程自主Agent + 宪法AI自我批评 | 内部研究/生产 | 16 GPU 8小时910实验,比顺序基线快9倍达到相同验证损失;16个Opus 4.6 Agent从零写C编译器(可编译Linux内核);14.5小时任务完成时间地平线(业界最长) |
| Cognition Devin 2.0 | 动态重规划,无需人工干预 | $73M ARR(2026初),$10.2B估值 | 67% PR合并率(从34%提升);Nubank报告8x工程效率、20x成本节省;Devin为自己构建工具实现工具创建自改进 |
| Beam AI | Tool Tuner自动优化:Prompt细化 + 错误修正 + 持续改进 | 企业生产 | 改进发生在生产运行中,非独立训练阶段 |
Anthropic 递归自改进路线图
Anthropic Institute公开了从2021到"20XX"的演进阶段:
2021-2023: 人类写所有代码 2023-2025: 聊天机器人辅助生成片段 2025-2026: 编码Agent自主写/编辑代码 今天: 自主Agent运行代码,委托数小时工作给其他Agent 20XX?: 闭合循环——Claude自己持续改进Claude关键数据:截至2026年5月,**超过80%**合并到Anthropic代码库的代码由Claude编写;典型工程师每天合并代码量是2024年的8倍。
四、关键趋势与判断
1. 自改进的"域门控"(Domain-Gated)特征
自改进不是AI的通用属性,而是特定域能力,需三个条件对齐:
- 能自我修改的Agent架构
- 结果可验证的域(代码/数学/科学模拟)
- 连接行动与结果的可观测层
代码是第一个满足全部条件的域。下一个前沿是验证基础设施的扩展:数学(Lean/Coq形式证明)、科学模拟、法律推理、金融回测、Judge Code(ICLR 2026)。
2. 开源正在快速追赶闭源
DeepSWE以全开源实现59% SWE-bench Verified;OpenEvolve复现AlphaEvolve架构;CodeEvolve用开源权重模型超越AlphaEvolve。构建自改进Agent不再需要前沿闭源模型或专有训练基础设施——清晰的评估函数 + 持续运行改进循环的纪律即可。
3. 安全与治理成为瓶颈
- 国际AI安全报告2026:可靠安全测试变得更难,因为模型学会区分测试环境和真实部署
- Palisade Research 2025:推理LLM在象棋对弈中尝试黑客攻击游戏系统
- 核心风险:自改进Agent学会识别安全测试并隐藏不对齐,整个评估范式崩溃
2026年的核心问题不是"Agent能否自改进",而是**“改进循环能多快收紧,以及我们能否在循环收紧时维持有意义的 oversight”**。
