当前位置: 首页 > news >正文

10M参数也能跑ARC与数独,Bengio团队押注「多轨迹推理」

10M 参数跑到数独 97%,GRAM 把递归推理改成多轨迹采样。

10M 参数,在大模型时代显得有些微不足道。

但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM,用这个量级的模型跑出了几组值得注意的结果。

在 Sudoku-Extreme 上准确率达到 97.0%,并在面向少样例模式识别与抽象视觉推理的 ARC-AGI 中,分别取得 52.0%(ARC-AGI-1)和 11.1%(ARC-AGI-2)。

论文还列出了部分大模型结果作为任务难度参考:DeepSeek-R1、Claude 3.7 16k 与 o3-mini-high 在 Sudoku-Extreme 上均为 0.0%。

不过作者也明确强调,这些结果不是同等训练、同等推理设置下的受控 baseline,不能直接理解为小模型公平击败大模型。

〓 GRAM 在 Sudoku-Extreme、ARC-AGI-1/2 上超过 HRM、TRM 等递归模型;大模型分数仅作任务难度参考。

这些结果背后的主要变化,不在递归推理本身,而在于 GRAM 把确定性递归更新改成了概率多轨迹计算。

传统递归架构通过共享转移函数反复更新隐状态,在不增加参数量的情况下延长内部计算。

HRM、TRM 等模型已经显示出这条路线的潜力,但它们大多仍是确定性递归模型:同一个输入和初始化会对应同一条隐空间轨迹,缺少探索其他候选轨迹的机制。

基于这个问题,团队提出 GRAM,即生成式递归推理模型,将单一确定性递归轨迹改造成概率潜变量过程,并允许推理时并行采样多条隐空间推理轨迹。

〓 确定性递归与 GRAM 多轨迹对比

论文标题:

Generative Recursive Reasoning

论文链接:

http://arxiv.org/abs/2605.19376

项目主页:

https://ahn-ml.github.io/gram-website/

递归更新如何变成多轨迹采样

GRAM 的核心是对隐状态更新机制的重构。模型将隐状态解耦为高、低两层 z=(h,l),承担不同时间尺度的计算任务。

低层状态 l 负责细粒度中间计算。在一次隐变量转移中,它在高层状态固定的情况下连续执行 K 次确定性更新:

高层状态承载更抽象的推理状态,每次转移时更新一次。模型先基于底层计算生成确定性候选状态

随后向候选状态注入依赖当前状态的高斯扰动:

均值负责指引推理方向,方差控制探索幅度。论文还特别指出,随机性只加在高层状态 h 上,作者尝试过向低层状态注入噪声,但没有带来性能提升。

训练阶段,GRAM 采用截断梯度传播的深度监督机制,优化截断后的代理目标。

附录实验显示,在 Sudoku-Extreme 与N-Queens 上,完整证据下界(ELBO)与截断代理目标的总体变化方向较一致。但论文也明确指出,这仍是带偏但节省显存的近似,而不是精确 ELBO。

〓 GRAM 核心架构图,展示单步随机隐空间转移过程

消融实验验证:随机指导不可或缺

消融实验进一步说明,随机性和指导信号需要同时起作用。

〓 消融实验展示了深度监督、层次递归与随机引导的影响

N-Queens 中,仅使用深度监督与层次递归的确定性版本(HRM/TRM)分别达到 80.70% / 72.90%。

引入随机引导后,+DS+SG 达到 100.00%,完整 GRAM 为 99.69%;同时完整 GRAM 在 Sudoku-Extreme 上达到 93.96%,综合表现更占优。

机制拆解也给出了更直接的证据。若移除引导信号(均值归零,仅保留随机噪声),N-Queens 准确率降至 50.27%;若完全移除随机性(方差归零,仅保留引导均值),准确率降至 0.0%。

这说明 GRAM 的收益不是来自随机解码或随机初始化,而是来自变分训练下的随机引导,让随机轨迹成为可学习、可选择的推理资源。

〓 TRM 与 GRAM 的隐空间轨迹对比

推理时扩展与多解任务

GRAM 在递归深度之外,引入了宽度维度的推理时计算扩展。通过隐过程奖励模型预测候选轨迹最终产生正确答案的可能性,模型可以在多个采样候选中选择预测值最高的输出,也可以使用多数投票。

在推理时扩展测试中,GRAM 只需在16 次迭代中并行采样N=20 条轨迹,就能在数独任务中达到97.0%的准确率。这一结果超过 TRM 在320 次迭代下的90.5%

〓 推理时扩展与多解任务准确率变化

多解任务更能体现这类设计的价值。面对N-Queens,GRAM 达到 99.7% 的准确率,并覆盖 90.3% 的不同有效解。

在 8 节点图着色任务中,GRAM 将冲突边数压低至 2.7 条(10 节点为 3.3 条),优于自回归生成模型的 19.0 和 61.3 条。

在 ARC-AGI-1 的附加实验中,作者还比较了数据增强与并行采样的关系。无外部数据增强时,GRAM 会随采样数增加而提升;当数据增强较强时,增加采样数的边际收益趋于饱和。

这说明数据增强和推理时采样承担的是互补作用,不能简单相加理解

〓 数据增强与推理时采样的交互关系

从条件推理到无条件生成

GRAM 本身是潜变量生成模型。当输入被替换为空条件输入,或固定为某个条件时,同一套递归过程也可以定义为无条件生成模型

在无条件数独生成中,模型从空棋盘出发生成完整盘面,并按标准 Sudoku 规则评估有效性。GRAM 使用 10.9M 参数和 16 个监督步,有效率达到 99.05%。

作为对比,离散扩散模型 D3PM 使用 55.1M 参数和 1000 次去噪步骤,最高有效率为 91.33%。生成阶段没有显式约束检查器或搜索过程,也就是说,模型并不是靠外部搜索修正结果,而是在递归生成过程中逐步形成合规棋盘。

〓 无条件数独生成示例

在二值化 MNIST 图像生成中,GRAM 在空条件输入下从初始生成状态出发,通过递归隐状态更新逐步修正图像结构。递归步数从 8 增加到 256 时,FID 分数由 84.08 下降至 73.34,IS 分数同步提升。

〓 MNIST 图像无条件生成过程

总结

这篇论文最值得关注的地方,是把递归推理从单一确定性轨迹,改成了可以采样多条候选轨迹的概率过程。

至少在结构化推理和多解约束任务中,这种设计带来了更好的探索能力和约束满足质量。基于宽度的并行采样,也让推理时计算不再只依赖递归步数。

需要强调的是,GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 这类受控任务上验证。

论文也承认,深度监督的顺序训练会限制训练效率,这也是 GRAM 继续扩展到更大基础模型时绕不开的限制。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/867681/

相关文章:

  • 软件测试的安全漏洞挖掘:掌握这3个方法,成为安全测试专家
  • 江安县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 西充县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • B/S架构模式在校园管理系统中的应用研究
  • 会理市黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 【顶级EI复现】基于去噪概率扩散模型(DDPM)的电动汽车充电行为场景生成研究( Python + PyTorch实现)
  • 西区黄金回收白银回收铂金回收店铺哪家好 靠谱门店推荐 - 莘州文化
  • 江油市黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 为什么你的Windows快捷键突然失效?Hotkey Detective一键定位占用程序终极指南
  • 测试工程师如何进行测试计划制定?这5个步骤让你的计划更合理
  • 【顶级EI复现】考虑用户行为基于扩散模型的电动汽车充电场景生成( Python + PyTorch代码实现)
  • 莱芜区黄金回收白银回收铂金回收店铺哪家好 靠谱门店推荐 - 莘州文化
  • 终极指南:Visual C++运行库合集AIO - 一站式解决Windows程序依赖问题
  • 井研县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 国产多模态大模型 vs GPT-4V:全面对比与开发者选型指南
  • 测试工程师必学的接口自动化测试框架:从0到1搭建实战
  • 泸定县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 模拟几种数据融合协作频谱感知技术在认知无线电应用中性能研究(Matlab代码实现)
  • 软件测试的缺陷管理:这4个工具+5个流程,让你的缺陷管理更高效
  • 泸县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • BilibiliDown终极指南:三步掌握B站视频下载的完整技巧
  • 莱西市黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 九龙县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 3步彻底解决Windows更新后开始菜单重置难题:ExplorerPatcher深度解析与实战
  • 移动优先策略下二维码钓鱼攻击激增机理与闭环防御体系研究
  • 九寨沟县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 国产多模态大模型:持续学习如何炼成?核心原理与实战全解析
  • 平阴县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 沐川县黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化
  • 莱阳市黄金回收店铺哪家好 靠谱门店推荐及联系方式 - 莘州文化