10M参数也能跑ARC与数独,Bengio团队押注「多轨迹推理」
10M 参数跑到数独 97%,GRAM 把递归推理改成多轨迹采样。
10M 参数,在大模型时代显得有些微不足道。
但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM,用这个量级的模型跑出了几组值得注意的结果。
在 Sudoku-Extreme 上准确率达到 97.0%,并在面向少样例模式识别与抽象视觉推理的 ARC-AGI 中,分别取得 52.0%(ARC-AGI-1)和 11.1%(ARC-AGI-2)。
论文还列出了部分大模型结果作为任务难度参考:DeepSeek-R1、Claude 3.7 16k 与 o3-mini-high 在 Sudoku-Extreme 上均为 0.0%。
不过作者也明确强调,这些结果不是同等训练、同等推理设置下的受控 baseline,不能直接理解为小模型公平击败大模型。
〓 GRAM 在 Sudoku-Extreme、ARC-AGI-1/2 上超过 HRM、TRM 等递归模型;大模型分数仅作任务难度参考。
这些结果背后的主要变化,不在递归推理本身,而在于 GRAM 把确定性递归更新改成了概率多轨迹计算。
传统递归架构通过共享转移函数反复更新隐状态,在不增加参数量的情况下延长内部计算。
HRM、TRM 等模型已经显示出这条路线的潜力,但它们大多仍是确定性递归模型:同一个输入和初始化会对应同一条隐空间轨迹,缺少探索其他候选轨迹的机制。
基于这个问题,团队提出 GRAM,即生成式递归推理模型,将单一确定性递归轨迹改造成概率潜变量过程,并允许推理时并行采样多条隐空间推理轨迹。
〓 确定性递归与 GRAM 多轨迹对比
论文标题:
Generative Recursive Reasoning
论文链接:
http://arxiv.org/abs/2605.19376
项目主页:
https://ahn-ml.github.io/gram-website/
递归更新如何变成多轨迹采样
GRAM 的核心是对隐状态更新机制的重构。模型将隐状态解耦为高、低两层 z=(h,l),承担不同时间尺度的计算任务。
低层状态 l 负责细粒度中间计算。在一次隐变量转移中,它在高层状态固定的情况下连续执行 K 次确定性更新:
高层状态承载更抽象的推理状态,每次转移时更新一次。模型先基于底层计算生成确定性候选状态:
随后向候选状态注入依赖当前状态的高斯扰动:
均值负责指引推理方向,方差控制探索幅度。论文还特别指出,随机性只加在高层状态 h 上,作者尝试过向低层状态注入噪声,但没有带来性能提升。
训练阶段,GRAM 采用截断梯度传播的深度监督机制,优化截断后的代理目标。
附录实验显示,在 Sudoku-Extreme 与N-Queens 上,完整证据下界(ELBO)与截断代理目标的总体变化方向较一致。但论文也明确指出,这仍是带偏但节省显存的近似,而不是精确 ELBO。
〓 GRAM 核心架构图,展示单步随机隐空间转移过程
消融实验验证:随机指导不可或缺
消融实验进一步说明,随机性和指导信号需要同时起作用。
〓 消融实验展示了深度监督、层次递归与随机引导的影响
在N-Queens 中,仅使用深度监督与层次递归的确定性版本(HRM/TRM)分别达到 80.70% / 72.90%。
引入随机引导后,+DS+SG 达到 100.00%,完整 GRAM 为 99.69%;同时完整 GRAM 在 Sudoku-Extreme 上达到 93.96%,综合表现更占优。
机制拆解也给出了更直接的证据。若移除引导信号(均值归零,仅保留随机噪声),N-Queens 准确率降至 50.27%;若完全移除随机性(方差归零,仅保留引导均值),准确率降至 0.0%。
这说明 GRAM 的收益不是来自随机解码或随机初始化,而是来自变分训练下的随机引导,让随机轨迹成为可学习、可选择的推理资源。
〓 TRM 与 GRAM 的隐空间轨迹对比
推理时扩展与多解任务
GRAM 在递归深度之外,引入了宽度维度的推理时计算扩展。通过隐过程奖励模型预测候选轨迹最终产生正确答案的可能性,模型可以在多个采样候选中选择预测值最高的输出,也可以使用多数投票。
在推理时扩展测试中,GRAM 只需在16 次迭代中并行采样N=20 条轨迹,就能在数独任务中达到97.0%的准确率。这一结果超过 TRM 在320 次迭代下的90.5%。
〓 推理时扩展与多解任务准确率变化
多解任务更能体现这类设计的价值。面对N-Queens,GRAM 达到 99.7% 的准确率,并覆盖 90.3% 的不同有效解。
在 8 节点图着色任务中,GRAM 将冲突边数压低至 2.7 条(10 节点为 3.3 条),优于自回归生成模型的 19.0 和 61.3 条。
在 ARC-AGI-1 的附加实验中,作者还比较了数据增强与并行采样的关系。无外部数据增强时,GRAM 会随采样数增加而提升;当数据增强较强时,增加采样数的边际收益趋于饱和。
这说明数据增强和推理时采样承担的是互补作用,不能简单相加理解。
〓 数据增强与推理时采样的交互关系
从条件推理到无条件生成
GRAM 本身是潜变量生成模型。当输入被替换为空条件输入,或固定为某个条件时,同一套递归过程也可以定义为无条件生成模型。
在无条件数独生成中,模型从空棋盘出发生成完整盘面,并按标准 Sudoku 规则评估有效性。GRAM 使用 10.9M 参数和 16 个监督步,有效率达到 99.05%。
作为对比,离散扩散模型 D3PM 使用 55.1M 参数和 1000 次去噪步骤,最高有效率为 91.33%。生成阶段没有显式约束检查器或搜索过程,也就是说,模型并不是靠外部搜索修正结果,而是在递归生成过程中逐步形成合规棋盘。
〓 无条件数独生成示例
在二值化 MNIST 图像生成中,GRAM 在空条件输入下从初始生成状态出发,通过递归隐状态更新逐步修正图像结构。递归步数从 8 增加到 256 时,FID 分数由 84.08 下降至 73.34,IS 分数同步提升。
〓 MNIST 图像无条件生成过程
总结
这篇论文最值得关注的地方,是把递归推理从单一确定性轨迹,改成了可以采样多条候选轨迹的概率过程。
至少在结构化推理和多解约束任务中,这种设计带来了更好的探索能力和约束满足质量。基于宽度的并行采样,也让推理时计算不再只依赖递归步数。
需要强调的是,GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 这类受控任务上验证。
论文也承认,深度监督的顺序训练会限制训练效率,这也是 GRAM 继续扩展到更大基础模型时绕不开的限制。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
