当前位置：首页 > news >正文

10M参数也能跑ARC与数独，Bengio团队押注「多轨迹推理」

news 2026/7/9 11:36:25

10M 参数跑到数独 97%，GRAM 把递归推理改成多轨迹采样。

10M 参数，在大模型时代显得有些微不足道。

但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM，用这个量级的模型跑出了几组值得注意的结果。

在 Sudoku-Extreme 上准确率达到 97.0%，并在面向少样例模式识别与抽象视觉推理的 ARC-AGI 中，分别取得 52.0%（ARC-AGI-1）和 11.1%（ARC-AGI-2）。

论文还列出了部分大模型结果作为任务难度参考：DeepSeek-R1、Claude 3.7 16k 与 o3-mini-high 在 Sudoku-Extreme 上均为 0.0%。

不过作者也明确强调，这些结果不是同等训练、同等推理设置下的受控 baseline，不能直接理解为小模型公平击败大模型。

〓 GRAM 在 Sudoku-Extreme、ARC-AGI-1/2 上超过 HRM、TRM 等递归模型；大模型分数仅作任务难度参考。

这些结果背后的主要变化，不在递归推理本身，而在于 GRAM 把确定性递归更新改成了概率多轨迹计算。

传统递归架构通过共享转移函数反复更新隐状态，在不增加参数量的情况下延长内部计算。

HRM、TRM 等模型已经显示出这条路线的潜力，但它们大多仍是确定性递归模型：同一个输入和初始化会对应同一条隐空间轨迹，缺少探索其他候选轨迹的机制。

基于这个问题，团队提出 GRAM，即生成式递归推理模型，将单一确定性递归轨迹改造成概率潜变量过程，并允许推理时并行采样多条隐空间推理轨迹。

〓确定性递归与 GRAM 多轨迹对比

论文标题：

Generative Recursive Reasoning

论文链接：

http://arxiv.org/abs/2605.19376

项目主页：

https://ahn-ml.github.io/gram-website/

递归更新如何变成多轨迹采样

GRAM 的核心是对隐状态更新机制的重构。模型将隐状态解耦为高、低两层 z=(h,l)，承担不同时间尺度的计算任务。

低层状态 l 负责细粒度中间计算。在一次隐变量转移中，它在高层状态固定的情况下连续执行 K 次确定性更新：

高层状态承载更抽象的推理状态，每次转移时更新一次。模型先基于底层计算生成确定性候选状态：

随后向候选状态注入依赖当前状态的高斯扰动：

均值负责指引推理方向，方差控制探索幅度。论文还特别指出，随机性只加在高层状态 h 上，作者尝试过向低层状态注入噪声，但没有带来性能提升。

训练阶段，GRAM 采用截断梯度传播的深度监督机制，优化截断后的代理目标。

附录实验显示，在 Sudoku-Extreme 与N-Queens 上，完整证据下界（ELBO）与截断代理目标的总体变化方向较一致。但论文也明确指出，这仍是带偏但节省显存的近似，而不是精确 ELBO。

〓 GRAM 核心架构图，展示单步随机隐空间转移过程

消融实验验证：随机指导不可或缺

消融实验进一步说明，随机性和指导信号需要同时起作用。

〓消融实验展示了深度监督、层次递归与随机引导的影响

在N-Queens 中，仅使用深度监督与层次递归的确定性版本（HRM/TRM）分别达到 80.70% / 72.90%。

引入随机引导后，+DS+SG 达到 100.00%，完整 GRAM 为 99.69%；同时完整 GRAM 在 Sudoku-Extreme 上达到 93.96%，综合表现更占优。

机制拆解也给出了更直接的证据。若移除引导信号（均值归零，仅保留随机噪声），N-Queens 准确率降至 50.27%；若完全移除随机性（方差归零，仅保留引导均值），准确率降至 0.0%。

这说明 GRAM 的收益不是来自随机解码或随机初始化，而是来自变分训练下的随机引导，让随机轨迹成为可学习、可选择的推理资源。

〓 TRM 与 GRAM 的隐空间轨迹对比

推理时扩展与多解任务

GRAM 在递归深度之外，引入了宽度维度的推理时计算扩展。通过隐过程奖励模型预测候选轨迹最终产生正确答案的可能性，模型可以在多个采样候选中选择预测值最高的输出，也可以使用多数投票。

在推理时扩展测试中，GRAM 只需在16 次迭代中并行采样N=20 条轨迹，就能在数独任务中达到97.0%的准确率。这一结果超过 TRM 在320 次迭代下的90.5%。

〓推理时扩展与多解任务准确率变化

多解任务更能体现这类设计的价值。面对N-Queens，GRAM 达到 99.7% 的准确率，并覆盖 90.3% 的不同有效解。

在 8 节点图着色任务中，GRAM 将冲突边数压低至 2.7 条（10 节点为 3.3 条），优于自回归生成模型的 19.0 和 61.3 条。

在 ARC-AGI-1 的附加实验中，作者还比较了数据增强与并行采样的关系。无外部数据增强时，GRAM 会随采样数增加而提升；当数据增强较强时，增加采样数的边际收益趋于饱和。

这说明数据增强和推理时采样承担的是互补作用，不能简单相加理解。

〓数据增强与推理时采样的交互关系

从条件推理到无条件生成

GRAM 本身是潜变量生成模型。当输入被替换为空条件输入，或固定为某个条件时，同一套递归过程也可以定义为无条件生成模型。

在无条件数独生成中，模型从空棋盘出发生成完整盘面，并按标准 Sudoku 规则评估有效性。GRAM 使用 10.9M 参数和 16 个监督步，有效率达到 99.05%。

作为对比，离散扩散模型 D3PM 使用 55.1M 参数和 1000 次去噪步骤，最高有效率为 91.33%。生成阶段没有显式约束检查器或搜索过程，也就是说，模型并不是靠外部搜索修正结果，而是在递归生成过程中逐步形成合规棋盘。

〓无条件数独生成示例

在二值化 MNIST 图像生成中，GRAM 在空条件输入下从初始生成状态出发，通过递归隐状态更新逐步修正图像结构。递归步数从 8 增加到 256 时，FID 分数由 84.08 下降至 73.34，IS 分数同步提升。

〓 MNIST 图像无条件生成过程

总结

这篇论文最值得关注的地方，是把递归推理从单一确定性轨迹，改成了可以采样多条候选轨迹的概率过程。

至少在结构化推理和多解约束任务中，这种设计带来了更好的探索能力和约束满足质量。基于宽度的并行采样，也让推理时计算不再只依赖递归步数。

需要强调的是，GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 这类受控任务上验证。

论文也承认，深度监督的顺序训练会限制训练效率，这也是 GRAM 继续扩展到更大基础模型时绕不开的限制。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.jsqmd.com/news/867681/

软件测试的安全漏洞挖掘：掌握这3个方法，成为安全测试专家

江安县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

西充县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

B/S架构模式在校园管理系统中的应用研究

会理市黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

【顶级EI复现】基于去噪概率扩散模型（DDPM）的电动汽车充电行为场景生成研究（ Python + PyTorch实现）

西区黄金回收白银回收铂金回收店铺哪家好靠谱门店推荐 - 莘州文化

江油市黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

为什么你的Windows快捷键突然失效？Hotkey Detective一键定位占用程序终极指南

测试工程师如何进行测试计划制定？这5个步骤让你的计划更合理

【顶级EI复现】考虑用户行为基于扩散模型的电动汽车充电场景生成（ Python + PyTorch代码实现）

莱芜区黄金回收白银回收铂金回收店铺哪家好靠谱门店推荐 - 莘州文化

终极指南：Visual C++运行库合集AIO - 一站式解决Windows程序依赖问题

井研县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

国产多模态大模型 vs GPT-4V：全面对比与开发者选型指南

测试工程师必学的接口自动化测试框架：从0到1搭建实战

泸定县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

模拟几种数据融合协作频谱感知技术在认知无线电应用中性能研究（Matlab代码实现）

软件测试的缺陷管理：这4个工具+5个流程，让你的缺陷管理更高效

泸县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

BilibiliDown终极指南：三步掌握B站视频下载的完整技巧

莱西市黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

九龙县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

3步彻底解决Windows更新后开始菜单重置难题：ExplorerPatcher深度解析与实战

移动优先策略下二维码钓鱼攻击激增机理与闭环防御体系研究

九寨沟县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

国产多模态大模型：持续学习如何炼成？核心原理与实战全解析

平阴县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

沐川县黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

莱阳市黄金回收店铺哪家好靠谱门店推荐及联系方式 - 莘州文化

相关文章：