当前位置：首页 > news >正文

codex模拟autosota方案

news 2026/4/29 23:43:34

结论：先别急着自己构建完整 AutoSOTA agent 系统。你现在最该做的是搭一个AutoSOTA-lite 工作流：复现基线 -> 生成优化想法 -> 实现单个改动 -> 跑实验 -> 审核有效性 -> 记录报告。
Agent 可以以后自动化；现在最值钱的是评测闭环和科研有效性约束，不是 agent 框架本身。

我查了一下：AutoSOTA 论文把流程拆成三段：资源/目标设定、实验评估、反思/构想，并用 8 个专门 agent 协作；它声称在有代码、成本可控的论文上发现了 105 个超过原方法的结果，平均约 5 小时一篇。GitHub 仓库目前更像是“优化结果榜单 + 每篇论文的 OPTIMIZATION.md”，不是开箱即用的完整系统。

你该怎么做

选一篇“有官方代码、数据容易拿、评测命令明确、单次实验不太贵”的论文。不要一开始挑超大模型训练。
建一个项目目录，固定这些文件：
paper_card.md：论文目标、指标、数据集、基线命令。
baseline.md：你实际复现出来的结果。
ideas.md：AI 生成的优化想法队列。
experiments.csv：每次实验的配置、结果、耗时、commit。
red_lines.md：哪些改动算作弊，比如数据泄漏、改测试集、改变评测协议。
optimization_report.md：最后像 AutoSOTA 仓库那样写结果总结。
用 Codex 或 Claude Code 先把 baseline 跑通。没跑通之前不要优化。
让 Kimi 读论文和相关文献，产出“可实验的优化想法”，每个想法必须有：假设、改哪里、预期收益、风险、实验成本。
用 Codex/Claude Code 一次只实现一个想法，开分支或至少记录 commit。
跑小实验筛选，再对最优结果做多 seed、消融、合法性检查。
最后写成OPTIMIZATION.md，格式参考 AutoSOTA 的单篇报告：baseline、final、关键改动、迭代历史、what worked / failed。

Agent 还是 Skills？
我的建议是：先写 skills，不急着造 agent。

更准确地说，skills 不应该“喂论文全文”，而应该写成可复用操作规程。论文相关内容放进paper_card.md，skill 只规定“每次做这种任务时 AI 应该怎么工作、输出什么格式、不能违反什么”。

可以先写 4 个轻量 skill：

paper-to-task：把论文 + repo 变成目标卡片。
baseline-repro：只负责复现，不允许优化。
sota-ideator：生成优化想法，按收益/成本/风险排序。
validity-supervisor：检查是否作弊、是否改了评测协议、结果是否可复现。

你三个会员怎么分工

Kimi：读长论文、综述、相关工作、生成 idea 池。它适合“大量文本理解”。
Claude Code：读陌生代码库、理解工程结构、做较大范围代码修改。
Codex：在本地项目里执行具体改动、跑命令、维护实验记录、把流程沉淀成 skills/scripts。

最小可行版本
你不需要先做“8 agent 系统”。第一版只要这样：

Kimi：读论文，产出 paper_card + ideas Codex/Claude：复现 baseline Codex/Claude：实现一个 idea 本地脚本：跑实验并记录 experiments.csv 另一个模型/同模型新上下文：做 red-line 审核 你：决定下一个实验

等你已经连续优化了 3-5 篇论文，再考虑写调度 agent：自动排队实验、监控日志、失败重试、生成报告。那个时候 agent 才有明显收益。

资料来源：
AutoSOTA arXiv 摘要：https://arxiv.org/abs/2604.05550
AutoSOTA GitHub：https://github.com/tsinghua-fib-lab/AutoSOTA
项目结果页：https://tsinghua-fib-lab.github.io/AutoSOTA/

查看全文

http://www.jsqmd.com/news/721782/