当前位置：首页 > news >正文

Remoroo：通宵自主研究代码，验证位每字节降低 31%，结果可复现！

news 2026/4/19 10:24:19

自主研究实例

3 月 31 日的 remoroo 会话中进行了自主研究。读取 program.md 后，基线验证位每字节（val_bpb）为 2.2396（提交编号 9138841），每个实验时间预算 20 分钟。进行 30 次实验，保留 8 次，舍弃 22 次，验证位每字节从 2.2396 降至 1.5484，降低 31%，结果已验证且可复现。

手动机器学习研究与 Remoroo 的对比

没有 Remoroo 的情况

手动进行机器学习研究操作如下：

$ vim train.py
> 调整学习率 learning_rate=3e-4
$ uv run train.py
> 等待 60 分钟…
> 验证位每字节（val_bpb）：2.24（无变化）
> 尝试批量大小 batch_size 为 2^15…
> 再等待 60 分钟…
> 损失值为 NaN。
$ git checkout .

两小时过去毫无进展，且无结果判定、结构化流程和验证依据。

使用 Remoroo 的情况

使用 Remoroo 时，运行命令 $ remoroo run --local program.md，完成 30 次实验，保留 8 次，舍弃 22 次，验证位每字节从 2.24 降至 1.55，结果已验证且可复现，用户可在睡梦中等待完成。

Remoroo 工作原理

撰写规范文件（如 program.md），让 Remoroo 指向该文件，它会在夜间运行实验。规范文件 program.md 有时间预算（如 1200），指标为验证位每字节（val_bpb），涉及文件 train.py（含模型、优化器、训练循环），评估 prepare.py 用于评估验证位每字节（evaluate_bpb）且固定不可修改。流程为 P - 规划、E - 编辑、T - 训练、E - 评估验证位每字节（val_bpb），并与基线对比。train.py 代码改动如下：

- ATTN_PATTERN = "L" * DEPTH
+ ATTN_PATTERN = "SSSL"

示例计费以积分（俳句小时单位）计算，与模型层级有关，详见 [定价](/pricing)。

经过验证的结果

学习率调度搜索

验证位每字节（val_bpb）从 2.24 降至 1.99，降低 11%。train.py 进行 14 次实验，保留 6 次，结果已验证。

架构搜索

验证位每字节（val_bpb）保持 1.55 不变。采用带状注意力机制（SSSL），train.py 进行 30 次实验，保留 8 次，结果已验证。

多目标优化

验证位每字节（val_bpb）加内存的 3 项约束条件全部通过。train.py 进行 22 次实验，保留 5 次，结果已验证。可 [查看所有基准测试 →](/benchmarks)。

Remoroo 与代码编写代理的区别

代码编写代理	Remoroo
时间尺度	数小时至通宵
任务范围	进行 30 次实验的搜索
执行方式	沙盒化、有时间预算
指标评估	固定评估工具
保留/舍弃决策	基于指标自主决策
失败处理	基于具体情况恢复
输出结果	经过验证的补丁 + 验证依据
可复现性	工件重放 + git
计费方式	以积分（俳句小时单位）计算运行时长