当前位置: 首页 > news >正文

【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

  • 1 发表时间与团队
  • 2 问题背景与核心思路
  • 3 具体设计
    • 3.1 模型设计
    • 3.2 self play设计
  • 4. 实验
  • 5 结论
  • 6 有趣的发现

1 发表时间与团队

  • 发表时间:2025年10月(arXiv v3 版本日期为2025年10月16日)。

  • 团队:主要由清华大学团队主导,合作单位包括北京通用人工智能研究院(BIGAI)和宾夕法尼亚州立大学。主要作者包括 Andrew Zhao、Yiran Wu、Zilong Zheng 和黄高(Gao Huang)教授等。

2 问题背景与核心思路

  • 背景:现有的强化学习推理方法(如 RLVR)虽然减少了对过程标签的依赖,但仍需要大量人工标注的问题和答案作为训练起点。随着 AI 能力提升,高质量人工数据的稀缺性以及人类题目对超智能体学习潜力的限制成为了瓶颈。

  • 核心思路:提出 Absolute Zero (AZ) 框架,实现从零数据开始的强化学习。通过单个模型进行“自博弈”(Self-play):模型既是提问者 (Proposer) 也是解题者 (Solver)。

    • 提问者生成能最大化自身学习进步的任务。
    • 解题者通过解决这些任务来提升推理能力。
    • 整个过程不依赖任何外部人类标注的题目。

3 具体设计

3.1 模型设计

  • TRR++ 算法:提出了 Task-Relative REINFORCE++。为了处理多任务环境下的高方差,它为 2 种角色(提问者/解题者)和 3 种任务类型(归纳/演绎/溯因)的组合设计了 6 个独立的基准值 (Baselines),通过归一化优势值(Advantage)来稳定训练。

  • 双重奖励机制:

    • 解题者奖励:基于可验证的规则(如代码执行结果是否正确)。
    • 提问者奖励:基于“学习进度”(Learning Progress)。如果解题者在某个任务上最初失败但在更新后成功,则认为该任务具有高学习价值,给予提问者高奖励。

3.2 self play设计

代码作为统一表示:所有推理任务都转化为 Python 代码。

三种逻辑任务:

  • Induction (归纳):给定输入输出,写出代码逻辑。
  • Deduction (演绎):给定代码和输入,推导输出。
  • Abduction (溯因):给定代码和输出,推导原始输入。

任务演化:从极其简单的 Python 操作开始,随着模型能力增强,生成的任务复杂度和逻辑深度自动演进。

4. 实验

  • 基础模型:使用 Qwen2.5-7B-Instruct 作为起点。

  • 对比基准:与使用人工数据的标准 RLVR 以及其他 Self-play 方法进行对比。

  • 结果:

    • 在完全没有人类题目数据的情况下,AZR 在多个数学和推理基准测试(如 AIME, AMC, MATH)上表现优异。

    • 实验证明,模型能够自发地从简单逻辑演进到复杂逻辑,且提问者生成的任务质量随训练持续提升。

5 结论

  • 数据零依赖:证明了推理能力的提升可以不依赖于人类预设的问题集。

  • 自博弈潜力:展示了通过“提问-解题”闭环实现模型自我进化的可能性。

  • 可扩展性:这种方法为超越人类水平的智能(Superintelligence)提供了一条路径,即通过自主生成的挑战来不断突破当前能力的上限。

6 有趣的发现

  • 代码先验增强推理能力(Code priors amplify reasoning): 基础的 Qwen-Coder-7b 模型在初始阶段的数学表现比 Qwen-7b 低 3.6 分。但在经过 AZR 训练后,Coder 版本反而反超了基础版本 0.7 分。这表明,强大的代码能力在经过 AZR 训练后,能够显著放大模型整体推理能力的提升。

  • AZR 展现出更显著的跨领域迁移(Cross domain transfer is more pronounced for AZR): 在进行标准的 RLVR(基于规则的强化学习)后,专门的代码专家模型在数学准确率上平均仅提升了 0.65 分;相比之下,在“自提议(self-proposed)”的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B,其数学平均分分别提升了 10.9 分和 15.2 分。这证明了 AZR 具有更强的泛化推理能力增益。

  • 更大的基座带来更大的增益(Bigger bases yield bigger gains): 性能提升随模型规模同步增长:3B、7B 和 14B 的 Coder 模型分别获得了 +5.7、+10.2 和 +13.2 分的提升。这说明持续扩大模型规模对 AZR 框架是非常有利的。

  • 注释作为中间计划自然涌现(Comments as intermediate plans emerge naturally): 在解决代码归纳任务时,AZR 经常像 ReAct 框架那样,将分步计划作为“注释”交织在代码中(见附录 C.3)。类似行为在极大的正式数学模型(如 671B 的 DeepSeek Prover v2)中也被观察到。因此,我们相信允许模型在生成长篇回答时使用“中间草稿本(scratch-pads)”,在其他领域也大有裨益。

  • 认知行为与 Token 长度取决于推理模式(Cognitive Behaviors and Token length depends on reasoning mode): 通过 AZR 训练,模型自发涌现出了不同的认知行为,如分步推理、穷举法和试错法,且这些行为在不同任务类型中表现各异。此外,随着训练进行,生成的 Token 数量也在增长,但增长幅度因任务而异:**溯因任务(Abduction)**的长度增长最快,因为模型需要不断尝试直到输出匹配;而演绎和归纳任务的长度增长则相对温和。

  • 安全警钟敲响(Safety alarms ringing): 我们观察到使用 Llama3.1-8b 的 AZR 偶尔会产生一些令人担忧的思维链(CoT),我们称之为“噢,糟糕时刻(uh-oh moment)”(示例见图 34)。这突显了未来在安全感知训练(safety-aware training)方面进行研究的必要性。

http://www.jsqmd.com/news/284926/

相关文章:

  • 桥梁墙面混凝土裂缝风化识别分割数据集labelme格式7752张2类别
  • 2026英语雅思培训学校机构辅导机构怎么选?深度解析行业模式+优质机构口碑榜单与家长择校指南
  • 对声音数字化的一些问题
  • 2026英语雅思学习辅导机构怎么选?深度解析行业现状+优质机构口碑榜单与家长择校指南
  • hal!HalGetBusDataByOffset函数分析得到Device (P2P0)PCI设备空间前4个字节
  • 【爆肝】2026年AI技术栈:RAG+微调+长上下文,通往AGI的黄金组合!小白程序员必学!
  • 1688供应商API:评价系统集成与供应商筛选实战指南
  • AI 应用的开发方法
  • abaqus在轮胎中的应用,2D轮胎网格划分映射成3D模型,装配充气模拟以及稳态滚动分析
  • TDengine 数学函数 SIGN 用户手册 - 详解
  • 深入Python配置管理:从环境变量到动态配置中心的演进与实践
  • 真香警告!Mini Agent开源神器,小白30分钟变身AI开发大神,老板看了直呼内行!
  • 【solidworks日记】测量/草图定位/倒角
  • 2026年铜雕厂家权威推荐榜单:五大实力企业引领行业新标杆
  • 摄影爱好者必备:afilmory 个人摄影网站服务器搭搭建教程
  • 香橙派通过VNC连接后处于管理员界面的切换为普通用户界面
  • 【代码已开源】告别RAG“语义陷阱“!MCTS驱动的知识检索框架让AI推理能力暴涨,小白也能秒变大神!
  • 香橙派到手如何通过网线实现与电脑连接
  • 量化私募诚意高薪聘请:24/25/26届本硕博校招/社招/春招/秋招都可数学、物理、统计、计算机、软件等专业1、量化软件开发工程师(本科985以上)base北上杭深关键词:c+
  • 2026英语雅思培训课程辅导机构怎么选?深度解析行业机构特点+家长择校指南
  • AI重构代码搜索:DeepAudit RAG系统让大模型读懂你的代码,告别grep时代!
  • 护栏状态安全监测终端 德克西尔技术领先
  • 2026年雕塑厂家TOP5综合实力分析:五大细分领域专家深度解析!
  • JDK21-虚拟线程(原理)
  • USACO历年白银组真题解析 | 2005年2月
  • 2026英语雅思培训机构辅导机构怎么选?深度解析行业现状+优质机构口碑榜单与家长择校指南
  • 2026英语雅思培训学校机构辅导机构推荐哪家好?家长择校避坑指南+深度解析
  • 2026年上海全屋定制衣柜公司TOP品牌厂家排行榜:全屋定制行业深度评测与排名、行业问题与选择指南
  • rust maturin 在调用 cargo 时,无法联网拉取 crates.io 索引,因为系统被代理到 127.0.0.1:10809,而本地并没有可用的代理服务
  • JDK21-虚拟线程(实战)