当前位置：首页 > news >正文

【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

news 2026/7/2 9:41:49

【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

1 发表时间与团队
2 问题背景与核心思路
3 具体设计
- 3.1 模型设计
- 3.2 self play设计
4. 实验
5 结论
6 有趣的发现

1 发表时间与团队

发表时间：2025年10月（arXiv v3 版本日期为2025年10月16日）。
团队：主要由清华大学团队主导，合作单位包括北京通用人工智能研究院（BIGAI）和宾夕法尼亚州立大学。主要作者包括 Andrew Zhao、Yiran Wu、Zilong Zheng 和黄高（Gao Huang）教授等。

2 问题背景与核心思路

背景：现有的强化学习推理方法（如 RLVR）虽然减少了对过程标签的依赖，但仍需要大量人工标注的问题和答案作为训练起点。随着 AI 能力提升，高质量人工数据的稀缺性以及人类题目对超智能体学习潜力的限制成为了瓶颈。
核心思路：提出 Absolute Zero (AZ) 框架，实现从零数据开始的强化学习。通过单个模型进行“自博弈”（Self-play）：模型既是提问者 (Proposer) 也是解题者 (Solver)。
- 提问者生成能最大化自身学习进步的任务。
- 解题者通过解决这些任务来提升推理能力。
- 整个过程不依赖任何外部人类标注的题目。

3 具体设计

3.1 模型设计

TRR++ 算法：提出了 Task-Relative REINFORCE++。为了处理多任务环境下的高方差，它为 2 种角色（提问者/解题者）和 3 种任务类型（归纳/演绎/溯因）的组合设计了 6 个独立的基准值 (Baselines)，通过归一化优势值（Advantage）来稳定训练。
双重奖励机制：
- 解题者奖励：基于可验证的规则（如代码执行结果是否正确）。
- 提问者奖励：基于“学习进度”（Learning Progress）。如果解题者在某个任务上最初失败但在更新后成功，则认为该任务具有高学习价值，给予提问者高奖励。

3.2 self play设计

代码作为统一表示：所有推理任务都转化为 Python 代码。

三种逻辑任务：

Induction (归纳)：给定输入输出，写出代码逻辑。
Deduction (演绎)：给定代码和输入，推导输出。
Abduction (溯因)：给定代码和输出，推导原始输入。

任务演化：从极其简单的 Python 操作开始，随着模型能力增强，生成的任务复杂度和逻辑深度自动演进。

4. 实验

基础模型：使用 Qwen2.5-7B-Instruct 作为起点。
对比基准：与使用人工数据的标准 RLVR 以及其他 Self-play 方法进行对比。
结果：
- 在完全没有人类题目数据的情况下，AZR 在多个数学和推理基准测试（如 AIME, AMC, MATH）上表现优异。
- 实验证明，模型能够自发地从简单逻辑演进到复杂逻辑，且提问者生成的任务质量随训练持续提升。

5 结论

数据零依赖：证明了推理能力的提升可以不依赖于人类预设的问题集。
自博弈潜力：展示了通过“提问-解题”闭环实现模型自我进化的可能性。
可扩展性：这种方法为超越人类水平的智能（Superintelligence）提供了一条路径，即通过自主生成的挑战来不断突破当前能力的上限。

6 有趣的发现

代码先验增强推理能力(Code priors amplify reasoning)：基础的 Qwen-Coder-7b 模型在初始阶段的数学表现比 Qwen-7b 低 3.6 分。但在经过 AZR 训练后，Coder 版本反而反超了基础版本 0.7 分。这表明，强大的代码能力在经过 AZR 训练后，能够显著放大模型整体推理能力的提升。
AZR 展现出更显著的跨领域迁移(Cross domain transfer is more pronounced for AZR)：在进行标准的 RLVR（基于规则的强化学习）后，专门的代码专家模型在数学准确率上平均仅提升了 0.65 分；相比之下，在“自提议（self-proposed）”的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B，其数学平均分分别提升了 10.9 分和 15.2 分。这证明了 AZR 具有更强的泛化推理能力增益。
更大的基座带来更大的增益(Bigger bases yield bigger gains)：性能提升随模型规模同步增长：3B、7B 和 14B 的 Coder 模型分别获得了 +5.7、+10.2 和 +13.2 分的提升。这说明持续扩大模型规模对 AZR 框架是非常有利的。
注释作为中间计划自然涌现(Comments as intermediate plans emerge naturally)：在解决代码归纳任务时，AZR 经常像 ReAct 框架那样，将分步计划作为“注释”交织在代码中（见附录 C.3）。类似行为在极大的正式数学模型（如 671B 的 DeepSeek Prover v2）中也被观察到。因此，我们相信允许模型在生成长篇回答时使用“中间草稿本（scratch-pads）”，在其他领域也大有裨益。
认知行为与 Token 长度取决于推理模式(Cognitive Behaviors and Token length depends on reasoning mode)：通过 AZR 训练，模型自发涌现出了不同的认知行为，如分步推理、穷举法和试错法，且这些行为在不同任务类型中表现各异。此外，随着训练进行，生成的 Token 数量也在增长，但增长幅度因任务而异：**溯因任务（Abduction）**的长度增长最快，因为模型需要不断尝试直到输出匹配；而演绎和归纳任务的长度增长则相对温和。
安全警钟敲响(Safety alarms ringing)：我们观察到使用 Llama3.1-8b 的 AZR 偶尔会产生一些令人担忧的思维链（CoT），我们称之为“噢，糟糕时刻（uh-oh moment）”（示例见图 34）。这突显了未来在安全感知训练（safety-aware training）方面进行研究的必要性。

查看全文

http://www.jsqmd.com/news/284926/