别把 `autoresearch` 当成“AI 科学家”:真正值得学的是它怎样把训练实验关进一个可审计的闭环
别把autoresearch当成“AI 科学家”:真正值得学的是它怎样把训练实验关进一个可审计的闭环
很多人看到 Karpathy 的autoresearch,第一反应会是:是不是终于可以让 Agent 通宵替我改模型、跑实验、醒来直接收论文结果了?
我建议先把这个期待降一档。autoresearch真正有价值的地方,不是它已经变成“自动科学家”,而是它把一个 LLM 训练实验压成了一个极窄的闭环:固定评价、固定时间、只改一个文件、每次实验 keep/discard。这套边界,比“让 Agent 自由发挥”更值得机器学习工程师学习。
这篇文章不复述 README。我把仓库拉下来,顺着README.md -> prepare.py -> train.py -> program.md看了一遍,又对比了父项目nanochat、MLE-bench、PostTrainBench 和几个公开 issue。结论先说:如果你想做自己的 ML Agent 实验平台,第一步不是写更聪明的 prompt,而是先学会把实验空间关小。
1. 这个项目火,不是因为它神奇,而是因为它把“研究”缩得足够小
autoresearch的外层叙事很容易让人兴奋:给 Agent 一个小型但真实的 LLM 训练系统,让它夜里自己改代码、训练 5 分钟、看验证集有没有提升,然后保留或者丢弃修改。
