Remoroo:通宵自主研究代码,验证位每字节降低 31%,结果可复现!
自主研究实例
3 月 31 日的 remoroo 会话中进行了自主研究。读取 program.md 后,基线验证位每字节(val_bpb)为 2.2396(提交编号 9138841),每个实验时间预算 20 分钟。进行 30 次实验,保留 8 次,舍弃 22 次,验证位每字节从 2.2396 降至 1.5484,降低 31%,结果已验证且可复现。
手动机器学习研究与 Remoroo 的对比
没有 Remoroo 的情况
手动进行机器学习研究操作如下:
$ vim train.py两小时过去毫无进展,且无结果判定、结构化流程和验证依据。
> 调整学习率 learning_rate=3e-4
$ uv run train.py
> 等待 60 分钟…
> 验证位每字节(val_bpb):2.24(无变化)
> 尝试批量大小 batch_size 为 2^15…
> 再等待 60 分钟…
> 损失值为 NaN。
$ git checkout .
使用 Remoroo 的情况
使用 Remoroo 时,运行命令 $ remoroo run --local program.md,完成 30 次实验,保留 8 次,舍弃 22 次,验证位每字节从 2.24 降至 1.55,结果已验证且可复现,用户可在睡梦中等待完成。
Remoroo 工作原理
撰写规范文件(如 program.md),让 Remoroo 指向该文件,它会在夜间运行实验。规范文件 program.md 有时间预算(如 1200),指标为验证位每字节(val_bpb),涉及文件 train.py(含模型、优化器、训练循环),评估 prepare.py 用于评估验证位每字节(evaluate_bpb)且固定不可修改。流程为 P - 规划、E - 编辑、T - 训练、E - 评估验证位每字节(val_bpb),并与基线对比。train.py 代码改动如下:
- ATTN_PATTERN = "L" * DEPTH示例计费以积分(俳句小时单位)计算,与模型层级有关,详见 [定价](/pricing)。
+ ATTN_PATTERN = "SSSL"
经过验证的结果
学习率调度搜索
验证位每字节(val_bpb)从 2.24 降至 1.99,降低 11%。train.py 进行 14 次实验,保留 6 次,结果已验证。
架构搜索
验证位每字节(val_bpb)保持 1.55 不变。采用带状注意力机制(SSSL),train.py 进行 30 次实验,保留 8 次,结果已验证。
多目标优化
验证位每字节(val_bpb)加内存的 3 项约束条件全部通过。train.py 进行 22 次实验,保留 5 次,结果已验证。可 [查看所有基准测试 →](/benchmarks)。
Remoroo 与代码编写代理的区别
| 代码编写代理 | Remoroo |
|---|---|
| 时间尺度 | 数小时至通宵 |
| 任务范围 | 进行 30 次实验的搜索 |
| 执行方式 | 沙盒化、有时间预算 |
| 指标评估 | 固定评估工具 |
| 保留/舍弃决策 | 基于指标自主决策 |
| 失败处理 | 基于具体情况恢复 |
| 输出结果 | 经过验证的补丁 + 验证依据 |
| 可复现性 | 工件重放 + git |
| 计费方式 | 以积分(俳句小时单位)计算运行时长 |
Remoroo 不是靠猜测,而是有验证依据。30 秒即可完成安装,免费套餐包含每月运行积分,详见 [定价](/pricing)。安装命令为 $ pip install remoroo,还可安装 CLI 并 [阅读文档 →](/docs)。
