当前位置：首页 > news >正文

递归自改进的力量，OMEGA 让算法研发进入“生长模式”

news 2026/7/14 5:19:57

导读：当我们习惯了让 AutoML 帮我们调参、让大模型帮我们写代码时，一个更大胆的问题开始浮现。机器能不能自己“发明”机器学习算法？不仅能写出能跑的代码，还能在标准数据集上打败人类工程师手写的经典模型。OMEGA 正是在回答这个问题。它把 LLM 的生成能力、自动调试、自我改进和统一评测串成一条完整的流水线，让算法从“想法”到“可执行模型”都能自动完成。更令人意外的是，这些自动生成的模型在多个任务上超过了 scikit‑learn的基线表现，甚至能通过递归自改进不断变强。OMEGA 展示的不是一个新模型，而是一种全新的科研方式，一种让 AI 参与算法创造、甚至自我进化的可能性。机器学习的未来，也许正在从“人写算法”走向“算法自己长出来”。

01 从AutoML到自动化算法发现的范式跃迁

如果说过去十年机器学习的主旋律是“模型越来越大、算力越来越猛”，那现在这股风正在悄悄转向另一个方向——让机器自己发明机器学习算法。这听起来像科幻小说里的桥段，但OMEGA 这篇提交到 ICLR 2026 的研究团队，正是把这个想法往现实里推了一大步。

传统的机器学习研究其实非常“手工”。研究者脑子里冒出一个点子，接着要写代码、调 bug、跑实验、调参、再跑实验……一个新算法从灵感到能跑起来，往往要花掉几周甚至几个月。 AutoML 和 NAS 虽然帮我们自动调了模型结构和超参，但它们的搜索空间仍然被框死在“已有算法的变体”里，想让它们真正创造一个全新的学习逻辑，几乎不可能。

而 LLM 的出现让人看到了另一条路。它们能写代码、能解释错误、能根据提示生成新的算法思路，但缺点也很明显：它们写出来的代码能不能跑？能不能复现？能不能在标准数据集上稳定表现？这些问题没有一个靠“单纯让 LLM 输出代码”就能解决。

OMEGA 的出现，就是把这条路真正铺平。它把 LLM 的输出从“文本”变成“可执行学习系统”，让“自动化算法发现”第一次有了一个闭环：想法生成 → 代码生成 → 自愈调试 → 标准化评测 → 模型发布。这不是 AutoML 的升级版，而是一个新的范式。

研究团队来自Infinity Artificial Intelligence Institute 与斯坦福大学计算机科学（Stanford CS），既有工业界的工程基因，也有学术界的严谨气质。把这类研究投到ICLR，也说明他们不是在做玩具，而是想把“自动化算法创造”推向主流研究舞台。

当我们把视角拉回到 OMEGA 的核心问题，会发现它其实在回答三个非常关键的挑战。第一，LLM 能不能真正生成“新算法”，而不是把已有方法重新排列组合。第二，生成的代码能不能跑、能不能评测、能不能复现。第三，这些自动生成的模型能不能在标准基准上打败 sklearn 的经典模型。

研究团队的贡献也围绕这三点展开。它提出了一个端到端的算法生成框架，把 LLM 的创造力和工程化的严谨性绑在一起。并且构建了一个名为 infinity‑bench 的 20 数据集评测体系，让所有生成模型都能在同一套标准下比较。它展示了两个非常有代表性的“新算法”，一个来自人类提示，一个来自 LLM 自己的想法。它比较了四大主流 LLM 的代码生成能力，告诉我们“谁更会写算法”。它还做了一个很有意思的实验：到底是改 prompt 更有效，还是改代码更有效？结果非常耐人寻味。

02 OMEGA 所处的技术生态

如果把 OMEGA 放在过去十年的机器学习发展史里，它的位置非常清晰。它不是在和 AutoML竞争，而是在补上 AutoML 做不到的那一块。

AutoML 和 NAS 的核心能力，是在一个预设好的空间里搜索最优结构。你给它卷积层、注意力层、MLP层，它帮你组合；你给它超参范围，它帮你调。但它永远不会跳出这个空间，也不会自己发明一个新的学习逻辑。元学习虽然试图让模型“学会如何学习”，但它依然依赖已有算法的框架。

真正让“自动化算法发现”变得现实的，是AlphaTensor、AlphaEvolve 这类工作。它们证明了机器可以在数学空间里找到人类没想到的算法，比如矩阵乘法的更优分解。但这些系统往往依赖专门的搜索结构或强化学习框架，难以泛化到更广泛的机器学习任务。

与此同时，LLM 的程序合成能力在过去两年里突飞猛进。从 HumanEval 这种“能不能写出正确函数”的测试，到现在的闭环执行环境，LLM 已经能做到“写代码 → 运行 → 看错误 → 再写”。但缺乏一个统一的框架，把这些能力整合成一个真正能“发明算法”的系统。

OMEGA 的定位就非常明确。它不是在调参，也不是在做结构搜索，而是在让 LLM 直接生成一个“新的学习器”。它把 sklearn 当成一种 DSL（领域特定语言），让所有生成算法都能无缝接入现有生态。它用自愈循环保证代码能跑，用 infinity‑bench 保证评测标准化，用模型库发布保证可复现。

如果说 AutoML 是“自动调模型”，那 OMEGA 就是“自动造模型”。这是一个从“优化已有算法”到“创造新算法”的范式跃迁。

03 OMEGA 框架：从想法到可执行模型的闭环系统

如果说前两节让我们看到了 OMEGA 的“野心”，那这一节，就是它真正的“工程灵魂”。这套框架的厉害之处不在于某个单点创新，而在于它把一整条“算法创造链路”打通了。从灵感到代码，从错误到修复，从模型到评测，再到最终打包成库，整个过程像一条自动化生产线。你甚至能感受到一种“AI 在做科研”的味道。

图1：OMEGA核心框架。

框架总览：从 Idea 到Release 的完整闭环

OMEGA 的整体流程非常清晰。先让 LLM 生成一个算法想法，再让它写出对应的 sklearn 风格代码。代码写出来之后不一定能跑，于是进入自愈循环，让 LLM 根据错误信息不断修补。修好之后，把模型丢到统一的评测体系里跑一遍，算出分数。表现好的模型会被自动收录进一个 pip 包，也就是 omega‑models。

这条链路的关键，是它不是“单向生成”，而是“闭环反馈”。 LLM 不只是写代码，它还要对自己的错误负责。这让整个系统更像一个“自动化科研助手”，而不是一个“代码生成器”。

为了让 LLM 更好地理解任务，OMEGA 设计了结构化的 meta‑prompt。它不是一句“帮我写个分类器”，而是把任务拆成类名、文件名、接口要求、数据格式、评测方式等一整套结构化信息。这就像给 LLM 提供了一份“算法设计说明书”，让它在一个清晰的框架里发挥创造力。

Idea Generation：算法想法是怎么被“自动发明”的

OMEGA 的第一步不是写代码，而是“想点子”。这一步有两种来源，一种来自人类，一种来自 LLM 自己。

人类输入很好理解，就是研究者把自己的想法丢进去，比如“能不能做一个方向性森林”。但更有意思的是 LLM 的“Ontology Search”。研究者给它一组基础模型，再给它一组研究原则，比如偏差‑方差、特征子空间、信息增益之类的。 LLM 会把这些元素组合起来，生成一批“可能有用的新算法思路”。

这一步其实非常接近“自动化科研”的核心。它不是在调参，而是在探索新的算法空间。这些想法有的很怪，有的很新，有的甚至能跑出不错的结果。这说明 LLM 在“算法创造”这件事上，确实有点潜力。

Code Generation：从自然语言到sklearn兼容代码

想法有了，下一步就是写代码。 OMEGA 在这里做了一个非常聪明的设计——强制所有生成模型都遵循 sklearn 的 API。也就是说，每个模型都必须继承 BaseEstimator，并且实现 fit 和 predict。

这看似是限制，实际上是“工程化的自由”。因为 sklearn的接口已经成为行业标准，只要模型遵循这个规范，就能无缝接入各种 pipeline、交叉验证、网格搜索、特征工程流程。这让 OMEGA 生成的模型不是“玩具代码”，而是“可用代码”。

在代码生成阶段，OMEGA 会解析 LLM 的输出，把类名、文件名、代码块提取出来，确保结构清晰。这一步非常关键，因为 LLM 的输出有时会混杂解释、注释、代码片段，必须经过解析才能进入下一步。

Self‑Healing Loop：自动调试与错误修复

代码第一次生成时，十有八九是跑不通的。这不是 LLM 的问题，而是“写算法”本来就很容易出错。 OMEGA 的自愈循环，就是让 LLM 自己修自己的 bug。

流程很简单但很有效。系统运行代码，捕获错误栈，把错误信息重新写进 prompt，让 LLM 根据错误修复代码。这个过程可以重复多轮，直到代码能跑通，或者达到最大尝试次数。

这一步的关键，是 LLM 能看到真实的错误信息。比如 AttributeError、SyntaxError、TimeoutError 等等。它会根据这些错误进行针对性修复，而不是盲目重写。

当然，自愈机制也有风险。比如 LLM 可能为了“让代码能跑”而牺牲算法逻辑，或者陷入某种“错误循环”。但整体来看，这个机制让 OMEGA 的可执行性大幅提升。

Evaluation：infinity‑bench的统一评测体系

代码能跑只是第一步，能不能表现好才是关键。 OMEGA 使用了一个名为 infinity‑bench 的评测体系，包含 20 个多样化的分类数据集。这些数据集覆盖数值型、类别型、小样本、大样本、二分类、多分类等各种情况。

为了让不同数据集的结果可比，OMEGA 使用了 Min‑Max Normalized Accuracy。公式是这样的：

意思是把每个模型在每个数据集上的表现，按该数据集的最差和最好模型做归一化。这样就避免了“简单数据集把所有模型都拉满”的问题。

最终的得分是所有数据集的平均值：

这个评测体系的意义在于，它让所有生成模型都在同一套标准下比较。这对自动化算法发现来说非常重要，因为你必须有一个统一的“评价尺子”。

图2：最佳模型与Scikit学习基线（最小最大分数）。

Library Creation：模型的工程化发布

最后一步，是把表现最好的模型打包成一个 pip 包，也就是 omega‑models。这一步看似简单，但意义重大。它让 OMEGA 生成的模型不只是实验结果，而是可以被任何人直接import 使用的工具。

更重要的是，这些模型遵循 sklearn 的接口规范，所以它们可以直接接入现有的工程流程。这让 OMEGA 的成果真正具备了“落地价值”。

04 代表性生成模型OMEGA 的“算法创造力”

如果说 OMEGA 的框架展示了“AI 如何造算法”，那这一节，就是它真正的“作品展”。这些模型不是人类研究者手写的，而是 LLM 在结构化提示、自愈循环和统一评测体系的共同作用下“创造”出来的。它们不是简单的“换皮模型”，而是带着某种“新逻辑”的算法雏形。其中最具代表性的两个，一个来自人类提示，一个来自 LLM 自己的灵感，分别是MetaSynthesisClassifier 和 DirectionalForest。

MetaSynthesisClassifier：LLM生成的堆叠元学习框架

MetaSynthesisClassifier 是那种你一看就知道“有点东西”的模型。它的核心思想其实不复杂，就是把多个基学习器的预测结果再交给一个“更聪明的模型”来综合判断。但OMEGA 让 LLM 自己把这个结构写出来，并且写得足够规范、足够可运行，这本身就很有意思。

MetaSynthesisClassifier 的第一步，是准备一组基学习器。这些基学习器可以是逻辑回归、随机森林、决策树，也可以是其他 sklearn 兼容的模型。它们各自训练、各自预测，然后把每个样本的预测概率拼成一个新的向量。这个向量就是所谓的 meta‑feature。

研究团队给出了一个非常关键的公式，用来描述这个 meta‑feature 的构造方式：

意思很简单，把所有基学习器对同一个样本的“看法”拼在一起，形成一个新的特征空间。这个空间不是原始特征空间，而是“模型的观点空间”。

为了避免数据泄漏，基学习器在生成这些概率时会使用交叉验证，也就是说每个样本的预测都来自“没见过它的模型”。这让 meta‑learner能真正学到“哪个基学习器在什么情况下更靠谱”。

接下来，meta‑learner 会在这个新空间里学习一个映射关系：

它的目标不是拟合原始特征，而是拟合“模型的判断”。这让它在很多复杂数据集上表现得比单模型更稳、更准。

为什么它能超过单模型？原因其实很朴素。不同模型有不同的偏差和盲点，把它们的判断综合起来，就像让多个专家一起投票。MetaSynthesisClassifier 的 meta‑learner学到的，就是“哪个专家在什么情况下更值得信任”。

在 20 个数据集的评测中，这个模型表现非常亮眼，甚至拿下了整个 OMEGA 体系的最高分。这说明 LLM 在“组合已有模型”这件事上，确实能玩出一些新花样。

图3:MetaSynthesisClassifier与Scikit-Learn个人数据集得分。

DirectionalForest：基于特征方向性的决策森林

如果说 MetaSynthesisClassifier 是“聪明的组合”，那 DirectionalForest 就更像是“结构上的创新”。它不是在已有模型上做加法，而是引入了一个新的概念——特征方向性。

DirectionalForest 的核心，是计算每个特征在不同类别之间的“方向”。具体做法是先算每个类别的均值向量，再算全局均值，然后把它们的差求符号：

这个方向向量 d 的每个元素都是 −1、0 或 1，表示某个特征在整体上是“偏向某类”还是“偏离某类”。接下来，所有样本的特征都会和这个方向向量做逐元素相乘：

这一步看似简单，但意义很大。它相当于把整个特征空间“旋转”或“翻转”到一个更有利于分类的方向。决策树在这个方向空间里更容易找到有效的分裂点，因为特征的极性已经被统一了。

DirectionalForest 的优势在于，它能在高维数据集上保持稳定表现。它的假设虽然简单，但在很多数据分布中确实能减少树模型的方差。相比传统的 RandomForest，它多了一步“方向校准”，这让它在某些任务上能跑得更好。

当然，它也有局限。比如当类别均值差异不明显时，方向向量可能不稳定；或者当特征之间存在强非线性关系时，这种线性方向假设可能不够用。但作为一个由 LLM 自动生成的算法，它的结构已经相当有启发性。

图4:DirectionalForest与Scikit-Learn个人数据集得分。

其他高分模型速览：DimAwareForest、CompressionGuidedForest 等

除了这两个代表作，OMEGA 还生成了不少表现不错的模型。比如 DimAwareForest，它会根据特征维度的重要性动态调整树的结构； CompressionGuidedForest 则尝试用某种“压缩感知”的思想来指导特征选择。这些模型的共同点，是它们都不是简单的“换名字”，而是带着某种结构上的创新。

这些创新可能来自 LLM 对已有算法的重新组合，也可能来自它对提示中“原则”的某种抽象理解。比如“高维特征需要降噪”、“信息量大的特征应该优先分裂”、“不同树应该有不同的偏差‑方差配置”等等。这些启发在传统研究中也常见，但 LLM 把它们组合成了新的结构。

这些模型的存在说明，OMEGA 不只是能生成“能跑的模型”，而是能生成“有想法的模型”。这才是自动化算法发现最令人兴奋的地方。

05 LLM 生成能力比较与自我改进实验，Prompt 比代码更重要

当我们看到 OMEGA 能自动生成算法时，心里自然会冒出一个问题。到底是哪家的 LLM 更会写算法？是 Gemini 的工程基因更强，还是 GPT 的推理能力更稳，或者 Claude 的逻辑性更好，亦或是 grok 的速度优势能带来意外惊喜？研究团队把这四个模型放在同一条跑道上，让它们在相同的提示下生成算法，再经过自愈循环和统一评测体系，最终比拼“谁写出来的模型更能打”。

结果很快就显现出来。 Gemini 2.5 Flash 的平均表现最强，稳定性也最好。 GPT‑4.1 mini 紧随其后，整体表现均衡。 Claude Sonnet 4.5 偶尔能写出很有想法的结构，但波动稍大。 grok‑code‑fast‑1 则像一位灵感型选手，有时能跑出惊喜，有时也会掉链子。

表1:LLM中模型生成提示的得分（以每个提示中表现最佳的LLM加粗）。

但真正值得关注的不是“谁赢了”，而是“差距其实没有想象中那么大”。这说明一个非常关键的事实。在OMEGA这种结构化框架里，LLM的差距被大幅缩小，提示（prompt）的质量反而成为决定性因素。LLM 写算法这件事，已经从“比模型”变成了“比提示”。这是一种范式变化，也是一种能力迁移。未来谁能写出更好的 prompt，谁就能让 LLM 发挥更大的创造力。

图5:OMEGA提示和代码改进实验。

Prompt Improvement vs Code Improvement

为了进一步验证“提示是否比代码更重要”，研究团队做了一个非常聪明的实验。让 LLM 自己改 prompt。再让LLM 自己改代码。然后比较两种方式带来的性能提升。

结果非常清晰，改prompt的提升幅度普遍大于改代码。

为什么会这样？因为 prompt 决定的是“算法空间”。它影响的是 LLM 会往哪个方向思考，会采用什么结构，会选择什么策略。这是一种“高维度的改变”，像是给模型换了一个新的世界观。而代码改进更多是“修补实现”，比如修 bug、补逻辑、改变量名。它改变的是细节，而不是方向。

不同 LLM 的表现也不一样。 Claude 在 prompt 改进上的提升最明显，说明它对提示的敏感度更高。 GPT 的提升也很稳定，属于“越指导越聪明”的类型。 Gemini 本来就强，提升幅度相对有限，但依然能从 prompt 改进中获益。 grok‑code‑fast‑1 在 prompt 改进上甚至出现了负提升，说明它对提示的依赖方式更特殊，也更容易“跑偏”。

这个实验的意义非常深远。它告诉我们，未来的自动化算法发现系统，核心竞争力不在于 LLM 本身，而在于prompt 的设计能力。这意味着 prompt engineering 不会消失，反而会成为“自动化科研”的关键技能。

06 OMEGA 的价值、局限与方向

OMEGA 的出现让人兴奋，它让“AI 自动发明算法”从概念变成了一个可运行的系统。但作为研究者，我们也必须冷静地看到它的边界。任何技术的突破，都伴随着新的问题和新的挑战。

方法学局限

OMEGA 目前只在表格型分类任务上验证，这类任务结构清晰、特征独立、接口统一，非常适合自动化算法生成。但它无法代表图像、文本、时间序列等更复杂的任务，这些任务需要深度网络、需要 GPU、需要更复杂的训练流程。未来要扩展到这些领域，难度会成倍增加。

另一个问题是“创新度判定”。 LLM 生成的算法到底算不算“新算法”？是结构创新，还是已有方法的组合？这在学术界是一个敏感问题，也需要更严格的算法分类与创新性检测机制。

自愈循环也有潜在风险。 LLM 可能为了“让代码能跑”而牺牲算法逻辑，甚至可能陷入“错误过拟合”，不断修补错误，却没有真正提升算法本身的质量。

最后是代码安全与依赖风险。自动生成代码意味着自动生成依赖，这可能带来安全隐患、版本冲突、不可控行为。未来必须加入更严格的沙箱机制与静态分析工具。

工程与实践挑战

生成代码的可维护性是一个现实问题。 LLM 写的代码往往缺乏注释、缺乏结构化设计、缺乏长期维护性，这对工程团队来说是一个挑战。

依赖漂移也是一个潜在风险。 LLM 生成的代码可能依赖某个版本的 sklearn 或 numpy，一旦版本更新，模型可能无法运行。这需要更强的版本锁定与兼容性检测。

运行成本也不容忽视。自动生成算法意味着大量 LLM 调用，这在工业环境中成本不低。未来需要更高效的本地模型或缓存机制。

未来研究方向

OMEGA 的潜力远不止于此，它可能成为“AI 科学家”的基础模块。未来有几个方向非常值得期待。

一个方向是扩展到深度学习架构生成，让 LLM 不只是写 sklearn 模型，而是写 PyTorch 或 JAX 的网络结构。这将真正打开“自动化深度学习架构发现”的大门。

另一个方向是引入形式化验证，让生成的算法不仅能跑，还能被数学证明是正确的。这对安全关键领域尤其重要。

第三个方向是构建更强的自动化评测体系，不仅评测准确率，还评测鲁棒性、可解释性、训练成本、推理效率等多维指标。

最后一个方向是结合多智能体，让多个 LLM 扮演不同角色，一个负责想法，一个负责代码，一个负责调试，一个负责评测，真正形成一个“AI 研究团队”。（END）

参考资料：https://arxiv.org/pdf/2604.26211v1

关于波动智能——

波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系，融合人工智能与意识科学，构建覆盖情绪识别、建模与推荐的智能引擎，自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法，形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”，其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构，赋能企业实现更高效的用户洞察与精准情绪交互，推动从功能驱动到意图驱动的产业范式升级。

亲爱的人工智能研究者，为了确保您不会错过*波动智能*的最新推送，请星标*波动智能*。我们倾心打造并精选每篇内容，只为为您带来启发和深思，希望能成为您理性思考路上的伙伴！

加入AI交流群请扫码加微信

查看全文

http://www.jsqmd.com/news/781074/