当前位置: 首页 > news >正文

交大ASI-EVOLVE框架神了!AI设计AI,超越人类 SOTA 近三倍

AI 设计出更强的 AI?

过去,改进模型架构、整理训练数据、琢磨学习算法,全得靠人类科学家长年累月地试错。

现在,一个叫 ASI-EVOLVE 的开源框架,让 AI 自己上手搞 AI 研发,而且在架构、数据、算法三条战线上,都拿出了超越人工方案的结果。

上海交通大学,上海创智学院生成式人工智能研究实验室(SII-GAIR)团队,提出的 ASI-EVOLVE,让 AI 自主设计 AI,在模型架构上发现的最佳设计,超越人类 SOTA 近三倍,在数据策展上把 MMLU 分数拉升超过 18 分,在强化学习算法上比 GRPO 高出 12.5 分,而且还顺便在生物医药领域试了试身手。

该研究把“学知识、出方案、做实验、写分析”这个研究闭环,塞进一套 AI 智能体里,加上人类已有文献作为认知起点,再配上一位专门解读实验结果的“分析脑”,做到了人类研究员反复打磨几年才能摸到的天花板。

研究闭环为什么这么难

科学家做 AI 研究,拆开来其实是三个沉重的包袱:执行成本高,搜索空间大,反馈信号糊。

训练一个候补模型可能要烧掉几十上百个 GPU 时,修改的不只是一两个函数,而是一整片互相牵连的代码库。

方案的可能性几乎无穷无尽,根本没有预设好的边界。

好不容易跑完实验,得到的不是简单“对错”,而是损失曲线、几十项基准分、资源占用率这些多维信号,得靠研究人员的直觉去提炼下一步方向。

团队用一套三维标尺来描述这种任务的难度:执行成本 C_exec,搜索空间复杂度 S_space,反馈复杂度 D_feedback。

最轻松一档是科学问答,不跑实验,只判对错。

再往上,像 MLE-bench、AI Scientist 这类结构化任务,目标明确,反馈干净,但探索范围被框死。

到了 FunSearch、AlphaEvolve 这些轻量级科学发现框架,搜索空间豁然开朗,但每次实验本身仍然小巧,改动的通常只是一小段代码,反馈也简单直接。

真正难啃的骨头,是 ASI-EVOLVE 瞄准的那一档:大规模科学探索。

设计新架构、策展预训练数据、研发 RL 算法,随便一个验证实验都要完整训练模型,搜索维度纵横交错,反馈又是多维且混杂噪声。在这块无人区,此前没有任何系统能以统一的方式持续取得突破。

理解了这个难度光谱,就明白 ASI-EVOLVE 不是又一个“拿 LLM 写代码”的花活,它必须解决两个根本问题:怎么在动手之前就避免乱撞,以及怎么从杂乱实验日志里自动淘出真金。

一个闭环,四个齿轮

ASI-EVOLVE 把每一轮进化拆成四步:学知识、出设计、跑实验、写分析。对应四个模块,各司其职。

研究者 (Researcher) 是出方案的大脑。

每轮从数据库里采样一批历史上成功或失败的尝试,再从认知库里用语义搜索捞出相关的人类论文要点,随后用大模型生成一套完整的新代码方案,以及一段自然语言动机说明。演化上百轮后,系统也支持“只改差异部分”的编辑模式,避免一遍遍搬运大段代码。

工程师 (Engineer) 负责执行。

它把研究者产出的程序丢进真实训练环境,返回结构化的评估指标,外加一个主分数作为适应度信号。为了省 GPU 和时间,工程师内置了提前淘汰机制,用墙钟时限和轻量快速测试把明显不靠谱的方案挡在门外。碰到一些难以用规则打分的设计,它还能请 LLM 当评委,补充定性判断。

分析者 (Analyzer) 是整个闭环里的点睛之笔。

单次实验会喷出海量的训练日志、基准分目、效率追踪数据,直接全塞给下一轮会撑爆上下文,也稀释掉有效信息。分析者的任务,就是把这堆原料蒸馏成一份简洁的诊断报告,点明哪些设计奏效、哪些模式崩溃了、哪些坑下次要绕开。报告会被写回数据库,成为未来迭代的时候可检索的经验。

认知库 (Cognition) 是起步的助推器。

它用大约 150 篇线性注意力论文、80 篇图神经网络文献或 10 篇前沿 RL 论文,提炼出已知的设计原则、常见陷阱、可试方向,用嵌入向量存储起来。每轮研究者在构思前,会拿当前上下文去认知库里取回最相关的那几条先验。消融实验看得清清楚楚:有认知库,冷启动阶段的得分一上来就高出一截;没有的话,前面很长一段时间都在低分区晃悠。

数据库 (Database) 是持久记忆。

每一轮的动机、代码、结果、分析报告都存成一个节点。采样策略可以是贪心的、随机的,也可以用 UCB1 这类兼顾探索与利用的算法,甚至用 MAP-Elites 维护差异化档案。

实验发现,当认知库已经提供了强先验时,偏向利用的 UCB1 反而能更快冲向顶尖方案——在圆周打包任务中,UCB1 搭配 GPT-5-mini 只用了 17 轮就达到当前最优,同一个模型用 MAP-Elites 得花 79 轮。

每轮从数据库采样上下文节点,通过嵌入检索相关认知条目,生成新候选程序,执行评估,生成分析报告并存入数据库供未来轮次使用。

三线作战,全面超车

在架构、数据、算法这三个 AI 研发的命脉上,ASI-EVOLVE 打了一场漂亮的战役。

模型架构。任务是从 DeltaNet 出发,设计新的线性注意力层,要求次二次复杂度、支持分块并行训练,还得能插入现有大型代码库。

每轮验证需要几个小时的 GPU 训练。系统额外加了静态检查、错误调试和查重机制,确保不浪费算力。探索阶段用小模型快速筛选,候选者进入更大规模验证。

总共跑了 1773 轮,产出了 1350 个候选架构,其中 105 个超越了 DeltaNet 基线。

前五名代表被放大到约 13 亿参数、100B token 上全面评估。

结果在开发集上平均准确率最高冲到 57.28%,比 DeltaNet 的 55.76% 高出 1.52 个百分点;泛化集上也从 44.74% 提到 45.40%。最强者 PathGateFusionNet 净增 0.97 分,而此前人类设计的 SOTA 改进(Mamba2)仅比 DeltaNet 好 0.34 分,速度拉近了近三倍。

分析这些顶尖架构,发现它们不约合同地抛弃了固定的路径分配,转向自适应多尺度路由:用层级化的门控动态调配局部和全局计算,引入可学习温度来防止过早只走单一路线,甚至用熵惩罚来避免模式崩坏。

换句话说,AI 自己摸索出了“因材施教,动态分配算力”这一设计原则。

数据策展。任务是为预训练语料的每个类别自动设计清洗策略。Nemotron-CC 里满是学术材料,夹杂着 HTML 残渣、不完整片段、格式混乱。

认知库先通过抽样检查标注出常见的质量问题,研究者据此生成候选策略,工程师处理 500 份样本文档,分析者对 50 组清洗前后文稿打分并给出诊断。确诊的新问题会被写回认知库。

这样迭代出来的策略被应用到 Nemotron-CC 的数学、计算机、医学等子集,砍掉 168B 低质 token,产出 Nemotron-CCASI+ 数据集(504B token)。

拿 3B 模型从零练 500B token,在 18 个基准上一比,该数据集平均分 44.13,比原始数据高出 3.96 分,也压过 FineWeb-Edu、DCLM 等知名语料库。知识密集型任务的涨幅尤其夸张:MMLU 涨了 18.64 分,CSQA 涨了 18.80 分,MedQA 涨了 13.48 分。

策略共性也很有意思:系统自发地收敛到“清理导向”的方案,组合定向噪声删除、格式标准化、领域感知的保留规则,同时避免过度过滤。

强化学习算法。以 GRPO 为基线,要求 AI 重新设计优势分配和梯度计算机制。认知库塞了 10 篇 GRPO 之后的方差降低、KL 惩罚相关论文。

探索阶段用小模型 4B 参数跑 150 步筛选候选者,通过初筛的再上 14B 参数跑 300 步,考核数学、推理、STEM、金融、编程等多项泛化能力。

300 轮演化后,10 个算法在探索阶段胜过 GRPO,3 个在 14B 验证中全面领先。最佳方案在 AMC32 上从 67.5 提到 80.0,AIME24 从 20.00 跳到 31.67,OlympiadBench 也涨了 5.04 分。

并且 AI 设计的算法创新,在数学推导上与人类提出的方差控制技巧异曲同工。

拆解自身,跨界验证

为了确认每一项设计的真实价值,团队还在经典的圆周打包任务上做了严格的比较和消融。把 26 个圆塞进一个单位正方形,让它们半径之和最大。这个任务验证成本极低,但算法设计空间很大,被多个进化框架当作共同擂台。

ASI-EVOLVE 用 GPT-5-mini 上阵,17 轮就冲到 2.63597 分,达到现有最强水平;而 AlphaEvolve 需要更多轮次,OpenEvolve 收敛速度和最终分数都更低。

拿掉分析者模块,系统一开始分数也不低(认知库在提供先验),但很快就陷入平台期,持续提升的能力明显弱化。

拿掉认知库,冷启动阶段直接趴窝好久,靠自身试错慢慢攒经验才逐渐赶上来。说明两者的协作模式很清晰:认知负责扶上马,分析负责送一程。

采样算法的影响也颇为有趣。MAP-Elites 强调保持多样性,UCB1 偏向利用高分节点,随机采样则没有偏好。

实验曲线显示,当认知库已经提供了很强的方向感时,UCB1 反而比刻意保多样性的 MAP-Elites 冲得更快、更稳,证明好的先验可以让我们少走弯路,专注深钻。

更让人信服的跨界证据来自药物-靶标相互作用预测。

AI 在前面的实验里学会了设计精妙的架构,这套本事放到生物医药场景也一样能打。以 DrugBAN 为种子架构,认知库塞进 80 篇图神经网络和 DTI 建模文章,经过 100 多轮演进,得到的新架构 ban_sinkhorn_ds_marginal_topk_v6,在 BindingDB 开发集上 AUROC 提升 1.91,F1 提升 2.95。

真正的惊喜在冷启动强泛化场景:药物、蛋白,或两者都完全没见过的测试里,AI 架构的 AUROC 提升分别达到 6.94、3.56 和 4.36 个百分点,远超分布内提升幅度。

这个结果点出了演化出的模型不是靠死记硬背,而是学到了更可迁移的分子交互表征。

新架构的秘诀,是把最优传输理论里的 Sinkhorn 迭代拿来做注意力,加上药物分子和蛋白结构各自的边缘化计算,再用可学习的 top-k 稀疏门控降噪。

这些点子不是拍脑袋想的,而是演化过程从图注意力、分子表征、计算生物学等跨领域文献里自己“搅拌”出来的。

整个这项工作的代码和策略都已开源。它没有画出一幅 AI 取代科学家的夸张图景,而是把人类从繁琐的执行与调参中抽离出来,转去定义真正重要的问题。

如果你也对 AI 驱动 AI 演化感兴趣,可以去代码仓库跑一跑,说不定下一个突破就藏在某次实验的日志里。

参考资料

https://github.com/GAIR-NLP/ASI-Evolve

https://arxiv.org/pdf/2603.29640v1

http://www.jsqmd.com/news/720020/

相关文章:

  • 2026智慧工厂室内定位推荐:UWB高精度人员资产追踪方案 - 品牌2025
  • 通勤不晒黑的防晒来了,晒不黑绝绝子,这个夏天白到发光 - 全网最美
  • OpCore-Simplify:智能黑苹果EFI配置实战指南
  • SpringBoot整合Ehcache避坑指南:从xml配置到内存溢出,这些细节你注意了吗?
  • 【2026 算法级生存指南】知网大模型探针实录:哪些降重软件可以同时降低查重率和AIGC疑似率?
  • 2026年嘉兴六大黄金变现服务机构深度测评 - 福正美黄金回收
  • 月饼机排名:企业选购选型关键策略深度解析
  • 三足鼎立:Go、Java 与 Rust 如何选型?一篇看懂后端开发语言的终极抉择
  • 2025届最火的十大AI论文工具横评
  • 2026年国内AI模型平台GEO服务商排行榜:权威测评与选择指南 - 一搜百应
  • 2026深圳/广州地区平板、笔记本、相机、手机回收平台选择指南 - 深度智识库
  • 江宁靠谱衣柜定制品牌排行 实测选购参考指南 - 奔跑123
  • 江苏无机环保地坪与固化研磨工艺:工装地面新方向 - 新闻观察者
  • Flutter 纯色矩形
  • 别再为arm_sin_f32报错发愁了!STM32F103C8T6在CLion里调用DSP库的完整CMake配置流程
  • 智能设计工具赋能内容创作:告别传统制图模式实现高效创作
  • 5分钟快速上手B站成分检测器:评论区智能标注的终极解决方案
  • 2026 LOGO设计公司推荐排行 上市公司/头部企业优选榜 - 极欧测评
  • 2026年全国沥青筑路设备厂家推荐:德州霖垚、山东源头工厂对比与官方联系指南 - 企业名录优选推荐
  • 全球十大无纸记录仪品牌排行榜速览! - 仪表人小余
  • 2026最新漂流风景区/景点/打卡地推荐!贵州优质榜单发布,贵阳安顺等地好去处随心选 - 十大品牌榜
  • Ryujinx Switch模拟器深度解析:从ARM到x86的实时指令翻译技术实现
  • IIC—读写EEPROM(1)
  • WASM容器化部署实战(从树莓派到Jetson AGX):7步完成低延迟边缘AI服务上线
  • STM32 + MODBUS RTU + RS485 实现方案
  • 2026热门室内地图建模工具推荐:SLAM与矢量绘制全收录 - 品牌2025
  • 大语言模型(LLM)入门学习路线图
  • 2026最新避暑攻略/景点/景区/打卡地推荐!贵州优质避暑目的地榜单发布,高口碑值得去贵阳安顺等地避暑打卡地推荐 - 十大品牌榜
  • 2025届学术党必备的六大AI论文方案横评
  • RK3399开发环境搭建实录:在Ubuntu 22.04上配置Arm GNU Toolchain 12.2交叉编译器的完整流程