当前位置：首页 > news >正文

SELA框架：融合MCTS与LLM的智能AutoML新范式

news 2026/7/18 2:52:06

1. SELA框架：当MCTS的“棋手”思维遇上LLM的“专家”直觉

在数据科学项目里，最耗时的往往不是敲代码，而是做决策。面对一个新的表格数据集，从数据清洗、特征工程到模型选型、调参，每一步都像站在一个岔路口，背后是无数种可能的组合。传统的自动化机器学习（AutoML）工具，比如AutoGluon或Auto-Sklearn，像是一套精密的自动化流水线，它们依赖预设的算法库和基于元学习或贝叶斯优化的搜索策略，在庞大的配置空间里寻找一个不错的解。这套方法很有效，但它更像是在一个已知的迷宫里按照固定规则寻路，对于路径“为什么”这么走，缺乏一种更高层次的、基于任务理解的“策略性”规划。

这就是SELA（一个结合了蒙特卡洛树搜索与大语言模型的AutoML框架）出现的背景。它试图解决的不是“搜索更快”，而是“搜索更聪明”。你可以把它想象成一位同时具备两种能力的“超级助理”：一边是像顶尖围棋AI（AlphaGo）那样的“棋手”思维，即蒙特卡洛树搜索（MCTS），擅长在不确定的环境中通过模拟和评估来规划长远步骤；另一边是像经验丰富的数据科学家那样的“专家”直觉，即大语言模型（LLM），能够理解数据描述、任务目标，并生成具有逻辑性的操作建议（Insights）。SELA的核心创新，就在于让这位“棋手”学会了阅读任务说明书（LLM生成的Insights），并用它来指导每一步的“落子”（即选择具体的特征工程或模型训练动作）。

我最初接触这个框架时，最让我好奇的是它的成本。毕竟，每次调用LLM生成代码或建议都不是免费的，而MCTS又需要进行多次模拟（Rollout）。如果为了提升一点点模型性能，代价是天文数字的API调用费用，那这技术也只能停留在论文里。但SELA的设计显然考虑到了这一点，它通过一种“状态保存与加载”的机制，巧妙地避免了重复劳动，从而将单次机器学习任务的预估成本控制在了极低的水平（例如，使用DeepSeek-V2.5模型，在10次模拟迭代下，成本约为0.05美元）。这对于希望将AutoML应用于大量中小型任务，或者进行快速原型验证的团队和个人开发者来说，是一个非常有吸引力的特性。

2. 核心架构拆解：MCTS如何与LLM协同“解题”

要理解SELA为什么有效，我们需要深入它的工作流程。它不是一个简单的“LLM生成代码然后执行”的循环，而是一个将规划、模拟、评估和回溯紧密结合的搜索系统。

2.1 双引擎驱动：规划树与实验器

SELA的架构可以清晰地分为两个主要部分：规划器（Planner）和实验器（Executor）。规划器由MCTS算法驱动，负责构建和探索一个“机器学习任务规划树”；实验器则通常基于一个成熟的代码生成与执行框架（在论文中用的是Data Interpreter），负责将树中的每个“节点”（即一个具体的计划步骤）转化为可执行的Python代码，并运行它得到结果（如模型在验证集上的分数）。

MCTS构建的规划树是核心数据结构。树的根节点（Root Node）代表整个机器学习任务的起点。从根节点出发，第一层子节点通常对应机器学习流程的几个宏观阶段，例如：

探索性数据分析（EDA）
数据预处理
特征工程
模型训练与评估

这只是一个初始的、粗略的骨架。LLM的“专家直觉”在这里首次发挥作用。SELA会调用一个特定的提示（Insight Proposal Prompt），将数据集的基本信息（描述、元数据、前几行数据）喂给LLM，要求它为上述每一个任务阶段，生成至少5个具体、多样且可独立实施的“洞察”（Insight）。例如，对于“特征工程”阶段，LLM可能会建议：

“对数值型特征进行多项式变换（如平方、立方），以捕捉非线性关系。”
“针对时间序列字段，创建滞后特征（lag features）和滚动统计量（如7天均值）。”
“对高基数分类变量进行目标编码（Target Encoding）。”
“基于领域知识，创建特征交互项（如‘收入’除以‘家庭人数’得到‘人均收入’）。”
“使用主成分分析（PCA）进行降维，并保留解释95%方差的成分。”

这些LLM生成的Insights，会被作为“候选动作”填充到MCTS树中对应阶段的子节点下。于是，一棵静态的任务阶段树，就变成了一棵充满各种可能的具体操作路径的动态搜索树。

2.2 四步搜索循环：选择、扩展、模拟、回溯

有了这棵丰富的树，MCTS的经典四步循环就开始了。这个过程非常像一位棋手在思考：

选择（Selection）：从根节点开始，MCTS使用一种权衡“探索”与“利用”的策略（通常是UCT算法），沿着树向下选择子节点。它会倾向于选择那些历史表现好（高分）的节点（利用），但也会给访问次数少的节点机会（探索），以防止陷入局部最优。这个选择过程会一直持续到一个“叶节点”（尚未完全展开的节点）。
扩展（Expansion）：当到达一个叶节点时，如果该节点代表的步骤（例如“进行特征工程”）还有未尝试过的LLM Insight，SELA就会从中随机选择一个（或按策略选择一个），创建一个新的子节点。这个新节点就代表了一个更具体的操作，比如“进行特征工程：创建多项式特征”。
模拟（Simulation）：从新扩展的节点开始，SELA需要快速评估这条路径的潜力。它不会完整执行到最终模型，而是采用一种“快速推演”策略。在论文的案例中，SELA会基于当前节点及其祖先节点定义的完整计划（例如：EDA -> 预处理 -> “创建时间差分特征” -> “训练SVM模型”），让实验器（Data Interpreter）生成并执行对应的代码。代码运行后，会在一个较小的验证集（或通过交叉验证）上得到一个性能分数（Score），例如F1分数或负RMSE。这个分数就是本次模拟的回报。
回溯（Backpropagation）：模拟得到的分数会沿着刚刚走过的路径，从叶节点一直回溯更新到根节点。路径上每个节点的“访问次数”和“累计得分”都会被更新。一个节点得分越高、被访问次数越多，它在后续的选择阶段就越容易被“利用”。

这个循环会重复进行很多次（例如k=10次模拟）。每一次循环，MCTS都对不同技术路径的“价值”有了更深的了解，并逐渐将搜索资源集中在更有希望的路径上。

2.3 状态保存：降低成本的秘密武器

这里有一个关键细节极大地影响了成本效益。在传统的、简单的“LLM-Agent”循环中，每次尝试可能都会从头开始生成相似的代码，例如每次模拟都重新生成“读取数据”、“处理缺失值”的代码，造成大量的令牌（Token）浪费。SELA通过其底层的实验器框架（如Data Interpreter）实现了状态保存与加载。

具体来说，当MCTS选择了一条路径进行模拟时，实验器执行代码并产生结果（如处理后的数据、训练好的模型）。SELA会保存这个“实验状态”。如果后续的模拟路径的前面部分与之前某次模拟相同（例如，都采用了相同的数据预处理和特征工程步骤），那么实验器可以直接加载之前的状态，只执行后续不同的部分（例如，尝试不同的模型）。这就避免了为相同的操作步骤反复生成和解释代码，显著减少了需要发送给LLM的上下文长度和新生成的代码量��从而直接降低了API调用成本。这也是为什么在论文的成本分析中，SELA的成本（$0.05）低于其基础实验器Data Interpreter单独运行的成本（$0.07）的原因之一。

3. 实战评估：SELA在表格数据上的表现究竟如何？

论文在20个公开的表格数据集上对SELA进行了全面测试，涵盖了回归、二分类、多分类任务。竞争对手包括两个经典的AutoML库（AutoGluon, Auto-Sklearn）和两个同为LLM驱动的自动化框架（AIDE, Data Interpreter）。评估指标主要有两个：排名（Rank）和归一化分数（Normalized Score, NS%）。

3.1 性能排名分析：稳定性的胜利

看排名（表5）时，我们关注两个值：“Avg. Rank”（平均排名）和“Best Rank”（最佳排名）。平均排名反映了框架在不同数据集上表现的稳定性，最佳排名则体现了其冲击最高性能的潜力。

SELA在“最佳排名”上表现极为突出，平均最佳排名为2.7，位列所有方法之首。这意味着，在多次运行中，SELA至少有一次能够找到非常接近最优解的方案。相比之下，传统强队AutoGluon的平均最佳排名为4.4，而另一个LLM框架Data Interpreter为6.4。这直接证明了SELA所采用的MCTS搜索策略，在探索高质量解决方案方面具有显著优势。

在“平均排名”上，SELA（4.8）与AutoGluon（4.4）非常接近，且明显优于Auto-Sklearn（7.6）、AIDE（7.8）和Data Interpreter（8.8）。这说明SELA不仅偶尔能“超常发挥”，其常规表现也相当稳定可靠，没有出现某些方法在部分数据集上严重“翻车”的情况。

注意：排名评估中，一个常见的陷阱是只关注“最佳”结果。在实际项目中，我们往往更看重框架的稳定性和可重复性。SELA在两项排名上的均衡表现，表明它既具备探索顶尖性能的能力，又能提供稳定的输出质量，这对于生产环境的可信度至关重要。

3.2 归一化分数解读：绝对性能的较量

归一化分数（NS%）是一个将不同数据集、不同评估指标（RMSE， F1）的结果标准化到[0,100]区间的指标，100分代表当前数据集上所有参与比较方法中的最佳性能。它更直观地反映了模型的绝对性能。

从表6的整体NS%来看，SELA在“平均NS%”（53.3）和“最佳NS%”（54.7）上均略微领先于AutoGluon（53.2, 53.2），是参与比较的方法中最高的。虽然领先幅度不大，但考虑到AutoGluon是经过多年优化的、集成度极高的成熟框架，而SELA是一个较新的、基于LLM的探索性框架，能取得这样的成绩已经非常令人印象深刻。

深入看具体数据集，能发现更多细节：

在部分数据集上优势明显：例如在smoker-status（吸烟状态预测）数据集上，SELA的最佳NS%达到了91.5，远超其他方法（第二名DI为81.5）。在jasmine、segment、icr等数据集上，SELA也取得了最佳或接近最佳的成绩。
揭示不同方法的特性：AutoGluon表现非常稳健，在大多数数据集上都能拿到80分以上的高分，但冲击极限的能力稍弱。AIDE和Data Interpreter这类纯LLM驱动的方法，表现波动较大，在某些数据集上可能表现优异（如titanic上AIDE最佳NS%为83.7），但在另一些上可能失灵（如kick数据集上DI仅4.2）。SELA则通过MCTS的引导，一定程度上平滑了这种波动。

3.3 不同LLM基座的影响：能力与成本的权衡

SELA的“大脑”——LLM——是可以替换的。论文测试了GPT-4o、Claude 3.5 Sonnet和DeepSeek-V2.5三种不同的模型作为Insight生成和代码执行的基础。

结果（表7）显示，能力更强的LLM，确实能带来更好的性能。使用GPT-4o的SELA取得了最好的平均NS%（62.3）和最佳排名（1.5）。Claude 3.5 Sonnet和DeepSeek-V2.5紧随其后。这个结论非常直观：一个更聪明、代码生成能力更强的“专家”，自然能提出更好的建议，写出更可靠的代码。

然而，这里必须结合成本来看。GPT-4o的API调用费用远高于DeepSeek-V2.5。论文中给出的成本分析是基于DeepSeek-V2.5的（单任务约$0.05）。如果换成GPT-4o，成本可能会成倍增加。因此，在实际应用中，这成了一个典型的“性能-成本”权衡问题。对于追求极致性能且预算充足的场景，GPT-4o是首选；而对于需要大规模、低成本自动化处理大量任务的场景，DeepSeek-V2.5这类性价比高的模型则是更务实的选择。SELA框架的价值在于，它提供了一个上层搜索优化策略，使得即使使用能力稍弱的LLM，也能通过更聪明的搜索来弥补单次建议质量的不足，从而获得不错的整体效果。

4. 从案例研究看SELA的决策过程

论文附录E提供了一个关于GesturePhaseSegmentationProcessed手势相位分割数据集的详细案例，完美展示了SELA的搜索树是如何生长和决策的。我们以此为例，拆解它的思考过程。

初始规划（根节点Node 0）：SELA（或者说其底层的LLM）首先制定了一个通用的、高层次的机器学习计划，共7个步骤：从EDA到最终生成测试集预测。这是一个合理的、标准的流程模板。

第一层探索：特征工程的不同思路：MCTS开始搜索。它首先在“特征工程”这个阶段进行扩展。LLM为这个阶段生成了多个Insights，于是树中出现了多个子节点：

Node 0-0: 创建表征整体运动强度的特征，如速度和加速度的矢量幅度。
Node 0-1: 生成基于时间的特征，如连续帧之间的差值，以捕捉运动变化率。
Node 0-2: 创建表征身体部位间空间关系的特征，如手与头部的距离。
Node 0-3: 应用特征选择技术（如RFE）。
Node 0-4: 创建交互特征（如速度与加速度的乘积）。

模拟与评估：SELA开始对不同的特征工程思路进行模拟。例如，它模拟了Node 0-1（时间差分特征），并在模拟中尝试了不同的模型。记录显示，当Node 0-1与“训练SVM模型”（Node 0-1-1）这个子动作结合时，在验证集上取得了0.694的高分（Score）。同时，它也模拟了Node 0-0（矢量幅度特征）与“训练神经网络”（Node 0-0-2）的结合，得分为0.659。而Node 0-3（特征选择）路径的模拟得分较低（0.516）。

回溯与聚焦：高分结果会通过回溯机制，提升其父节点（Node 0-1和Node 0）的“价值”。在后续的搜索中，MCTS会更倾向于探索与“时间差分特征”（Node 0-1）相关的路径。我们看到，搜索树在Node 0-2（空间关系特征）下也进行了更深度的探索，尝试了SVM模型（Node 0-2-1）并进一步探索了集成方法（Node 0-2-1-2），但得分（0.652）仍略低于Node 0-1-1。

最终决策：经过多轮模拟（本例中生成29个独特代码），SELA选择得分最高的节点Node 0-1-1作为最佳解决方案。这条路径对应着：“进行特征工程（生成时间差分特征） -> 训练一个使用RBF核的SVM模型”。这个决策不是瞎猜的，而是MCTS通过多次模拟、评估和回溯，基于实际性能数据做出的。

这个案例清晰地表明，SELA不是在随机组合技术栈，而是在进行一种基于反馈的、定向的搜索。它用LLM来生成可能的技术选项（拓宽搜索广度），然后用MCTS来模拟这些选项的效果，并根��模拟结果智能地分配后续的搜索资源（增加搜索深度），最终收敛到一个经过“实践检验”的优秀方案上。

5. 工程实践启示与潜在挑战

基于对SELA框架的剖析和评估，我们可以总结出一些对实际工程应用有价值的启示，同时也必须正视其当前的局限性。

5.1 核心优势与适用场景

超越黑箱的“可解释性”搜索：与传统AutoML的“黑箱”优化不同，SELA的搜索树和案例研究提供了一种理解其决策过程的窗口。你可以看到它考虑了哪些特征工程方案、尝试了哪些模型，以及为什么最终选择了某条路径。这对于需要模型可解释性或希望从AutoML过程中学习经验的数据科学家来说，具有额外价值。
灵活的任务定义：只要LLM能够理解任务描述，SELA理论上可以处理任何形式的机器学习任务，不局限于表格数据。其框架不绑定于特定的算法库，通过更换实验器，可以适配不同的执行环境。
优异的探索能力：在资源（模拟次数）允许的情况下，SELA在寻找顶尖解决方案（Best Rank）方面表现出色。适用于那些模型性能提升一点就能带来巨大业务价值，且愿意为此投入适量计算资源的场景，如竞赛、关键模型研发。
良好的成本控制：通过状态复用机制，将单任务成本控制在极低水平，使得基于LLM的自动化方案具备了大规模应用的可行性。

5.2 实操注意事项与常见问题

模拟次数（k）的权衡：参数k（MCTS的模拟/滚动次数）直接决定了搜索的广度和深度，也线性影响计算时间和成本。k太小，搜索不充分，可能找不到好方案；k太大，成本增加，收益递减。在实践中，需要根据数据集复杂度、任务重要性和预算进行调节。论文中多用k=10，这是一个不错的起点。
提示工程的质量至关重要：SELA的“智慧”源头是LLM，而LLM的表现严重依赖提供给它的提示（Prompt）。TASK_PROMPT、INSTRUCTION_PROMPT和INSIGHT_PROPOSAL_PROMPT的设计需要精心打磨。模糊或引导性不足的提示会导致LLM生成无关或低质的Insights，将整个搜索带偏。
对实验器稳定性的依赖：SELA依赖于底层的代码执行器（如Data Interpreter）能够正确、稳定地执行生成的代码。如果实验器本身容易在复杂数据处理或模型训练中出错，那么MCTS得到的模拟分数就是不可靠的，会导致错误的回溯和决策。确保实验器环境的鲁棒性是前提。
计算资源与时间：虽然单次任务API成本低，但MCTS的模拟是串行或需要协调的。完成一次包含k次模拟的任务，总耗时是单次实验时间的k倍以上。对于耗时很长的训练任务（如大规模深度学习），总时间成本可能变得不可接受。这更适用于中小型表格数据的快速建模。

5.3 未来优化方向思考

从我个人的实践经验来看，SELA这类框架代表了AutoML一个很有前景的方向。要让它更实用，有几个可能的优化点：

并行化模拟：MCTS的模拟步骤本质上是独立的，可以并行执行以大幅减少总时间。这需要更复杂的任务调度和状态管理。
集成先验知识：允许用户输入领域特定的约束或偏好（例如，“禁止使用逻辑回归”、“优先考虑可解释模型”），将这些作为提示的一部分或搜索时的过滤条件，让搜索更贴合业务需求。
元学习加速：让SELA能够从过往类似任务的成功搜索路径中学习，初始化新的搜索树，实现“热启动”，从而减少不必要的探索。
更精细的成本控制：允许用户为不同阶段的LLM调用设置不同的模型或预算上限（例如，Insight生成用大模型，代码生成用小模型），进一步优化成本效益比。

SELA框架将基于搜索的规划和基于理解的生成相结合，为自动化机器学习打开了一扇新的大门。它不再仅仅是参数优化器，而是一个能够进行策略性思考的“AI协作者”。尽管目前它在绝对性能上对传统AutoML尚未形成碾压性优势，且在实际部署中需考虑延迟和稳定性，但其展现出的灵活性和探索能力，无疑为那些需要快速迭代、尝试多种可能性、并希望理解自动化决策过程的场景，提供了一个强有力的新工具。对于数据科学团队而言，它或许不是要完全替代AutoGluon这样的工具，而是成为一个在特定场景下（如创新方案探索、复杂特征工程构思）的补充和增强。

查看全文

http://www.jsqmd.com/news/875703/