当前位置：首页 > news >正文

如何用2700万参数超越大模型？HRM在抽象推理任务中的突破性进展

news 2026/7/4 16:21:45

如何用2700万参数超越大模型？HRM在抽象推理任务中的突破性进展

【免费下载链接】HRMHierarchical Reasoning Model Official Release项目地址: https://gitcode.com/GitHub_Trending/hrm11/HRM

Hierarchical Reasoning Model（HRM）是一种创新的递归架构，它在保持训练稳定性和效率的同时实现了显著的计算深度。与当前主要采用思维链（CoT）技术的大型语言模型不同，HRM通过单次前向传播执行顺序推理任务，无需中间过程的显式监督，仅用2700万参数就在复杂推理任务上取得了卓越性能。

HRM的核心架构：分层推理机制 🧠

HRM的创新之处在于其两个相互依赖的递归模块：负责缓慢抽象规划的高级模块和处理快速详细计算的低级模块。这种设计灵感来源于人类大脑中的分层和多时间尺度处理机制，使模型能够在没有预训练或CoT数据的情况下，仅使用1000个训练样本就在复杂任务中实现近乎完美的性能。

图：HRM的跨频率耦合机制（左）及其在各类推理任务上的性能表现（右）。图表显示HRM在ARC-AGI、数独和迷宫等任务上显著优于直接预测方法和思维链方法。

惊人性能：小模型战胜大模型的秘密武器 💪

HRM在多个复杂推理任务中展现出令人瞩目的成绩：

数独难题：能够解决极高难度的9x9数独
迷宫寻路：在30x30的复杂迷宫中找到最优路径
ARC基准测试：在衡量人工智能通用智能能力的关键基准——抽象推理语料库（ARC）上，超越了更大模型和更长上下文窗口的模型

这些结果凸显了HRM作为迈向通用计算和通用推理系统的变革性进展的潜力。

快速上手HRM：从零开始的推理模型搭建 🚀

环境准备 ⚙️

确保已安装PyTorch和CUDA。如果没有，可以运行以下命令：

# 安装CUDA 12.6 CUDA_URL=https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run wget -q --show-progress --progress=bar:force:noscroll -O cuda_installer.run $CUDA_URL sudo sh cuda_installer.run --silent --toolkit --override export CUDA_HOME=/usr/local/cuda-12.6 # 安装PyTorch PYTORCH_INDEX_URL=https://download.pytorch.org/whl/cu126 pip3 install torch torchvision torchaudio --index-url $PYTORCH_INDEX_URL # 安装额外依赖 pip3 install packaging ninja wheel setuptools setuptools-scm

安装FlashAttention ⚡

根据你的GPU型号选择合适的FlashAttention版本：

# 对于Hopper GPU git clone git@github.com:Dao-AILab/flash-attention.git cd flash-attention/hopper python setup.py install # 对于Ampere或更早的GPU pip3 install flash-attn

克隆仓库并安装依赖 📦

git clone https://gitcode.com/GitHub_Trending/hrm11/HRM cd HRM pip install -r requirements.txt

快速演示：数独求解器 💻🗲

训练一个能够解决极难数独的AI模型，在现代笔记本GPU上即可运行：

# 下载并构建数独数据集 python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000 # 开始训练（单GPU，较小批量大小） OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0

在RTX 4070笔记本GPU上的运行时间约为10小时。

数据集与评估：验证HRM的推理能力 📊

HRM支持多种推理任务的数据集构建，包括：

ARC数据集：dataset/build_arc_dataset.py
数独数据集：dataset/build_sudoku_dataset.py
迷宫数据集：dataset/build_maze_dataset.py

你可以通过puzzle_visualizer.html在浏览器中可视化探索这些谜题。

要评估训练好的模型，可以使用评估脚本：

OMP_NUM_THREADS=8 torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>

然后使用提供的arc_eval.ipynb笔记本最终确定和检查结果。

预训练 checkpoint 资源 🚀

项目提供了多个预训练好的模型 checkpoint：

ARC-AGI-2
数独9x9 Extreme（1000个示例）
迷宫30x30 Hard（1000个示例）

这些checkpoint可以帮助你快速开始推理任务，而无需从头训练模型。

结语：小模型的大未来 🌟

HRM以其2700万参数的轻量级模型，在复杂推理任务上超越了许多更大规模的模型，证明了高效架构设计的重要性。这种方法不仅降低了计算资源需求，还为边缘设备上部署强大的推理能力开辟了可能性。

无论是学术研究还是工业应用，HRM都为构建更高效、更智能的推理系统提供了新的思路和方向。随着进一步的优化和扩展，我们有理由相信这种分层推理模型将在更多领域展现其潜力。

如果你对HRM感兴趣，不妨通过项目代码库深入探索其实现细节，并尝试在自己的推理任务中应用这一创新模型。

【免费下载链接】HRMHierarchical Reasoning Model Official Release项目地址: https://gitcode.com/GitHub_Trending/hrm11/HRM

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/485089/

终极HRM硬件要求与优化指南：从RTX 4070到8卡集群的性能提升方案

Go OpenGL开发终极指南：gh_mirrors/gl/gl库完全入门教程

2026公众号文章排版工具大比拼！SVG滑动图片用什么工具制作？深度解析三款神器，让你的创作效率瞬间起飞。 - 鹅鹅鹅ee

Go 1.14+与gh_mirrors/gl/gl：checkptr问题解决方案与WithOffset函数使用

从0到1理解热成像技术：DIY-Thermocam带你走进红外世界

如何高效准备PHP面试？PHP-Interview-Best-Practices-in-China核心知识点全解析

blender_mmd_tools与Cycles渲染：打造逼真MMD模型渲染效果

DELL XPS 13-7390 重装系统方法 - yi

为什么你的GDI+动画总是“卡成PPT“？T速度曲线规划的4个秘密武器，让动画丝滑如初

[科普] 天线增益与波束宽度

2026加固笔记本优选指南：这些品牌值得一看，国内加固笔记本企业10年质保有保障 - 品牌推荐师

Waves区块链数据结构详解：Merkle树与状态管理机制

PHP面试中的Redis与Memcached选型：PHP-Interview-Best-Practices-in-China对比分析

9个你不知道的.NET线程秘密：Thread vs Task，谁更胜一筹？

6城高端腕表维修避坑指南：多品牌故障实测+场景化维修+正规网点全汇总 - 时光修表匠

如何快速入门Esplora：从安装到查询的完整指南

做满意度调研比较好的公司有哪些?26年榜单(选型指南) - 品牌排行榜

2026发膜新品盘点：最值得期待的5款 - 博客万

MLLM：移动端快速多模态大模型的终极解决方案

基于springboot的餐饮连锁销售信息管理系统餐厅预约

解决Midnight-Discord安装难题：常见报错、主题不生效与兼容性问题终极解决方案

为什么很多AI项目无法真正落地：企业AI实践的五个常见误区

如何通过用户行为分析优化Subfinder工具体验：数据驱动的完整指南

深入MLLM的硬件适配：Arm CPU、OpenCL GPU与Hexagon NPU实战

电商后台管理系统RESTful API设计终极指南：mall-admin-web实战解析

Takahē：新一代Fediverse服务器详解，轻松搭建你的去中心化社交网络

终极Flysystem文件系统指南：跨服务器文件同步的完整解决方案

小程序web基于多平台的票务系统的设计与实现和电影院票务预定系统

终极指南：Docusaurus状态管理的React Context和全局状态最佳实践