codex模拟autosota方案
结论:先别急着自己构建完整 AutoSOTA agent 系统。你现在最该做的是搭一个AutoSOTA-lite 工作流:复现基线 -> 生成优化想法 -> 实现单个改动 -> 跑实验 -> 审核有效性 -> 记录报告。
Agent 可以以后自动化;现在最值钱的是评测闭环和科研有效性约束,不是 agent 框架本身。
我查了一下:AutoSOTA 论文把流程拆成三段:资源/目标设定、实验评估、反思/构想,并用 8 个专门 agent 协作;它声称在有代码、成本可控的论文上发现了 105 个超过原方法的结果,平均约 5 小时一篇。GitHub 仓库目前更像是“优化结果榜单 + 每篇论文的 OPTIMIZATION.md”,不是开箱即用的完整系统。
你该怎么做
- 选一篇“有官方代码、数据容易拿、评测命令明确、单次实验不太贵”的论文。不要一开始挑超大模型训练。
- 建一个项目目录,固定这些文件:
paper_card.md:论文目标、指标、数据集、基线命令。baseline.md:你实际复现出来的结果。ideas.md:AI 生成的优化想法队列。experiments.csv:每次实验的配置、结果、耗时、commit。red_lines.md:哪些改动算作弊,比如数据泄漏、改测试集、改变评测协议。optimization_report.md:最后像 AutoSOTA 仓库那样写结果总结。 - 用 Codex 或 Claude Code 先把 baseline 跑通。没跑通之前不要优化。
- 让 Kimi 读论文和相关文献,产出“可实验的优化想法”,每个想法必须有:假设、改哪里、预期收益、风险、实验成本。
- 用 Codex/Claude Code 一次只实现一个想法,开分支或至少记录 commit。
- 跑小实验筛选,再对最优结果做多 seed、消融、合法性检查。
- 最后写成
OPTIMIZATION.md,格式参考 AutoSOTA 的单篇报告:baseline、final、关键改动、迭代历史、what worked / failed。
Agent 还是 Skills?
我的建议是:先写 skills,不急着造 agent。
更准确地说,skills 不应该“喂论文全文”,而应该写成可复用操作规程。论文相关内容放进paper_card.md,skill 只规定“每次做这种任务时 AI 应该怎么工作、输出什么格式、不能违反什么”。
可以先写 4 个轻量 skill:
paper-to-task:把论文 + repo 变成目标卡片。baseline-repro:只负责复现,不允许优化。sota-ideator:生成优化想法,按收益/成本/风险排序。validity-supervisor:检查是否作弊、是否改了评测协议、结果是否可复现。
你三个会员怎么分工
- Kimi:读长论文、综述、相关工作、生成 idea 池。它适合“大量文本理解”。
- Claude Code:读陌生代码库、理解工程结构、做较大范围代码修改。
- Codex:在本地项目里执行具体改动、跑命令、维护实验记录、把流程沉淀成 skills/scripts。
最小可行版本
你不需要先做“8 agent 系统”。第一版只要这样:
Kimi:读论文,产出 paper_card + ideas Codex/Claude:复现 baseline Codex/Claude:实现一个 idea 本地脚本:跑实验并记录 experiments.csv 另一个模型/同模型新上下文:做 red-line 审核 你:决定下一个实验等你已经连续优化了 3-5 篇论文,再考虑写调度 agent:自动排队实验、监控日志、失败重试、生成报告。那个时候 agent 才有明显收益。
资料来源:
AutoSOTA arXiv 摘要:https://arxiv.org/abs/2604.05550
AutoSOTA GitHub:https://github.com/tsinghua-fib-lab/AutoSOTA
项目结果页:https://tsinghua-fib-lab.github.io/AutoSOTA/
