当前位置: 首页 > news >正文

codex模拟autosota方案

结论:先别急着自己构建完整 AutoSOTA agent 系统。你现在最该做的是搭一个AutoSOTA-lite 工作流复现基线 -> 生成优化想法 -> 实现单个改动 -> 跑实验 -> 审核有效性 -> 记录报告
Agent 可以以后自动化;现在最值钱的是评测闭环和科研有效性约束,不是 agent 框架本身。

我查了一下:AutoSOTA 论文把流程拆成三段:资源/目标设定、实验评估、反思/构想,并用 8 个专门 agent 协作;它声称在有代码、成本可控的论文上发现了 105 个超过原方法的结果,平均约 5 小时一篇。GitHub 仓库目前更像是“优化结果榜单 + 每篇论文的 OPTIMIZATION.md”,不是开箱即用的完整系统。

你该怎么做

  1. 选一篇“有官方代码、数据容易拿、评测命令明确、单次实验不太贵”的论文。不要一开始挑超大模型训练。
  2. 建一个项目目录,固定这些文件:
    paper_card.md:论文目标、指标、数据集、基线命令。
    baseline.md:你实际复现出来的结果。
    ideas.md:AI 生成的优化想法队列。
    experiments.csv:每次实验的配置、结果、耗时、commit。
    red_lines.md:哪些改动算作弊,比如数据泄漏、改测试集、改变评测协议。
    optimization_report.md:最后像 AutoSOTA 仓库那样写结果总结。
  3. 用 Codex 或 Claude Code 先把 baseline 跑通。没跑通之前不要优化。
  4. 让 Kimi 读论文和相关文献,产出“可实验的优化想法”,每个想法必须有:假设、改哪里、预期收益、风险、实验成本。
  5. 用 Codex/Claude Code 一次只实现一个想法,开分支或至少记录 commit。
  6. 跑小实验筛选,再对最优结果做多 seed、消融、合法性检查。
  7. 最后写成OPTIMIZATION.md,格式参考 AutoSOTA 的单篇报告:baseline、final、关键改动、迭代历史、what worked / failed。

Agent 还是 Skills?
我的建议是:先写 skills,不急着造 agent。

更准确地说,skills 不应该“喂论文全文”,而应该写成可复用操作规程。论文相关内容放进paper_card.md,skill 只规定“每次做这种任务时 AI 应该怎么工作、输出什么格式、不能违反什么”。

可以先写 4 个轻量 skill:

  • paper-to-task:把论文 + repo 变成目标卡片。
  • baseline-repro:只负责复现,不允许优化。
  • sota-ideator:生成优化想法,按收益/成本/风险排序。
  • validity-supervisor:检查是否作弊、是否改了评测协议、结果是否可复现。

你三个会员怎么分工

  • Kimi:读长论文、综述、相关工作、生成 idea 池。它适合“大量文本理解”。
  • Claude Code:读陌生代码库、理解工程结构、做较大范围代码修改。
  • Codex:在本地项目里执行具体改动、跑命令、维护实验记录、把流程沉淀成 skills/scripts。

最小可行版本
你不需要先做“8 agent 系统”。第一版只要这样:

Kimi:读论文,产出 paper_card + ideas Codex/Claude:复现 baseline Codex/Claude:实现一个 idea 本地脚本:跑实验并记录 experiments.csv 另一个模型/同模型新上下文:做 red-line 审核 你:决定下一个实验

等你已经连续优化了 3-5 篇论文,再考虑写调度 agent:自动排队实验、监控日志、失败重试、生成报告。那个时候 agent 才有明显收益。

资料来源:
AutoSOTA arXiv 摘要:https://arxiv.org/abs/2604.05550
AutoSOTA GitHub:https://github.com/tsinghua-fib-lab/AutoSOTA
项目结果页:https://tsinghua-fib-lab.github.io/AutoSOTA/

http://www.jsqmd.com/news/721782/

相关文章:

  • 2026年国内核心机器人租赁平台综合实力排行盘点 - 奔跑123
  • 内网渗透核心技术:隧道技术完全指南——原理、工具与2026年实战解析
  • 【官方未公开的DOTS 2.0性能开关】:启用UnsafeHashMap优化+禁用Auto-RefCounting+强制Chunk对齐,实测CPU占用下降41.6%(附可复现Benchmark工程)
  • 企业级java+LangChain4j-RAG系统 限流熔断降级
  • Go语言Context深度解析与工程实践
  • RuoYi-Vue项目左侧菜单样式全局覆盖实战:避免污染其他页面的正确姿势
  • 从CPU到密码学:聊聊逻辑门(AND/OR/XOR)在真实世界里的硬核应用
  • 渗透测试入门
  • 电脑黑屏F1报错怎么解决 开机显示器不亮 键盘灯不亮
  • 如何选择适合项目的「限流 / 熔断 / 降级」方案
  • Pixelle-Video完整指南:如何用AI全自动生成专业短视频
  • 告别模糊照片:用PMRID模型实战训练你的专属图像去噪数据集(附完整代码与避坑指南)
  • 魔兽争霸3现代兼容性终极指南:5分钟解决所有运行问题
  • 超市购物车里的秘密:用Python手把手教你Apriori算法找商品关联(附完整代码)
  • FuturesDesk 集成 OMC 多智能体编排提效
  • Linux cgroup 使用指南:从原理到实践
  • M4Markets vs FP Markets vs XM:平台稳定性与高波动时的表现
  • 孩子不爱背单词?试试让手指先「记住」——打字侠英语可以这样用
  • 【GPR回归预测】双向长短期记忆神经网络结合高斯过程回归(BiLSTM-GPR)的多变量回归预测 (多输入单输出)【含Matlab源码 15399期】
  • 从安防到短视频:聊聊视频分割技术在我们身边的5个真实应用
  • Cursor Free VIP终极指南:三步解锁Cursor Pro永久免费使用
  • 在 Windows 上使用 Hyper-V 虚拟机准备安装OpenClaw
  • 1993-2023年各国各行业IFR工业机器人数据
  • 你的棋盘格摆对了吗?Ubuntu 20.04 + ROS相机标定实战避坑指南(附常见错误排查)
  • 爆款引擎:2026流量内卷下的SEO破局密码
  • 如何开展高质量用户访谈?掌握 UX 研究的 4 个核心要素与提问艺术
  • 实战案例——AI智能客服机器人(全渠道发布)
  • HoRain云--SciPy科学计算库:Python数据分析的强大工具
  • 别再傻等IDEA的Maven骨架了!手把手教你用阿里云镜像5分钟搞定Web项目
  • 算法训练营第 17天 151.翻转字符串里的单词