当前位置：首页 > news >正文

Meta-Harness: End-to-End Optimization of Model Harnesses 论文笔记

news 2026/7/15 15:21:10

背景

作为模型外面的那层运行框架，Harness 的优化至关重要，但与现有各种文本优化的方法不同，Harness 是一个复杂的带状态的外层程序

最近虽然涌现了一些“文本优化器”（如 OPRO, TextGrad, GEPA 等），试图利用 LLM 来迭代改进 Prompt 或代码，但它们在 Harness 优化上面临严重的 "水土不服"，主要原因在于反馈信息的过度压缩：

无记忆性或极短上下文： 许多现有方法在每次迭代时，仅向优化器提供非常有限的上下文（例如 100 到 30,000 个 Token），且通常只包含标量分数或简短的 LLM 生成摘要
丢失因果归因（Causal Attribution）能力： Harness 的决策具有长程依赖性。比如，第一步决定存储某个变量，可能会导致第十步的推理失败。如果仅仅告诉优化器 "任务失败了" 或者给一个简短摘要，优化器根本无法追踪到下游失败与早期 Harness 决策之间的因果关系。

为了解决上述问题，研究者提出了 Meta-Harness。这是一个在代码空间中运行的外层循环系统（Outer-loop system），专门用于搜索和优化 LLM 应用的 Harness 代码

该框架的思路如下：先提出一个新的 harness → 跑评测 → 把这次的代码、分数、执行轨迹全部存下来 → 下一轮继续看这些历史，再提出一个新的候选

Meta-Harness 允许通过文件系统访问有选择的检查之前的代码和执行轨迹，而不是从有损摘要和额外手工设计的搜索结构中进行优化（每一轮优化不是只看 summary，而是可以去翻全部历史）

Meta-Harness 的三大核心组件：

智能体提案者（Proposer）：Meta-Harness 使用 Claude Code（基于Opus-4.6模型）作为一个具备编程能力的智能体来生成新的Harness。它不仅能生成文本，还能调用开发者工具（如终端命令）直接修改和查阅代码
完整的文件系统访问：在每次迭代中，对于每一个被评估过的历史候选Harness，系统都会在文件系统中创建一个目录，里面完整保存了：源代码（Source code）、评估分数（Evaluation scores）以及详细的执行轨迹（Execution traces，包括 prompt、工具调用、模型输出等）。 Proposer 不会把这些海量日志一次性塞进上下文窗口，而是像人类程序员一样，使用标准终端命令（如 grep 和 cat）在文件系统中选择性地检索、阅读和诊断。在最复杂的设定中，单次评估可能产生高达 10,000,000 个 Token 的诊断信息，比传统的文本优化器高出几个数量级
代码空间搜索：通过阅读执行轨迹，Proposer 可以推断出 Harness失败的根本原因。然后，它可以在代码的算法结构层面修改 Harness（例如改变检索逻辑、重写提示词构建方式或修改状态更新机制），并输出一个完整的Python程序，而不是仅仅填补模板中的空缺

作者统计过，在最复杂的设置里，proposer 每轮中位数会读 82 个文件，而且会参考 20 多个 过去候选

研究者在三个高难度的数据集上进行了评估：预测刑事指控的LawBench、预测疾病的 Symptom2Disease (S2D) 以及预测化学反应物前体的 USPTO-50k

Meta-Harness 并非只发现了一种策略，而是探索出了一个精度与上下文成本权衡的帕累托前沿。这里选择了两个代表性端点：Draft Verification（最低上下文边界点）和 Label-Primed Query（最高准确度边界点）

帕累托前沿是一种解决多目标优化问题的方法，在多目标优化中找到平衡的方案，这个方案无法被改进（找到在一个目标上的改进并且其它目标不劣于其他解的解）

3c3e050e-6aa8-43f3-9318-312e2b5fff8c

abe2b638-bbb3-4477-9a1c-c07b95b6465b

Draft Verification（草稿验证策略）： 它首先检索5个最相似的历史样本，让模型给出一个初始草稿标签。然后，它根据这个草稿标签，专门检索 5 个支持该标签的例子和 5 个反对该标签的例子，要求模型重新思考并给出最终答案
Label-Primed Query（标签引导检索策略）： 它构建了一个非常复杂且庞大的单次 Prompt。首先列出所有合法的输出标签；然后为每个已知标签提取一个最具代表性的样本以提供全局覆盖；最后，通过 TF-IDF 相似度，将高度相似但标签不同的样本配对展示，从而在查询点附近建立极其敏锐的局部决策边界

研究者还构建了一个包含超过 50 万道数学题的大型语料库，并进行了实验；此外还在 TerminalBench-2 上分别对 Claude-Opus-4.6 和 Claude-Haiku-4.5 进行了实验，分别取得了榜单上的模型第一