当前位置: 首页 > news >正文

如何用2700万参数超越大模型?HRM在抽象推理任务中的突破性进展

如何用2700万参数超越大模型?HRM在抽象推理任务中的突破性进展

【免费下载链接】HRMHierarchical Reasoning Model Official Release项目地址: https://gitcode.com/GitHub_Trending/hrm11/HRM

Hierarchical Reasoning Model(HRM)是一种创新的递归架构,它在保持训练稳定性和效率的同时实现了显著的计算深度。与当前主要采用思维链(CoT)技术的大型语言模型不同,HRM通过单次前向传播执行顺序推理任务,无需中间过程的显式监督,仅用2700万参数就在复杂推理任务上取得了卓越性能。

HRM的核心架构:分层推理机制 🧠

HRM的创新之处在于其两个相互依赖的递归模块:负责缓慢抽象规划的高级模块和处理快速详细计算的低级模块。这种设计灵感来源于人类大脑中的分层和多时间尺度处理机制,使模型能够在没有预训练或CoT数据的情况下,仅使用1000个训练样本就在复杂任务中实现近乎完美的性能。

图:HRM的跨频率耦合机制(左)及其在各类推理任务上的性能表现(右)。图表显示HRM在ARC-AGI、数独和迷宫等任务上显著优于直接预测方法和思维链方法。

惊人性能:小模型战胜大模型的秘密武器 💪

HRM在多个复杂推理任务中展现出令人瞩目的成绩:

  • 数独难题:能够解决极高难度的9x9数独
  • 迷宫寻路:在30x30的复杂迷宫中找到最优路径
  • ARC基准测试:在衡量人工智能通用智能能力的关键基准——抽象推理语料库(ARC)上,超越了更大模型和更长上下文窗口的模型

这些结果凸显了HRM作为迈向通用计算和通用推理系统的变革性进展的潜力。

快速上手HRM:从零开始的推理模型搭建 🚀

环境准备 ⚙️

确保已安装PyTorch和CUDA。如果没有,可以运行以下命令:

# 安装CUDA 12.6 CUDA_URL=https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run wget -q --show-progress --progress=bar:force:noscroll -O cuda_installer.run $CUDA_URL sudo sh cuda_installer.run --silent --toolkit --override export CUDA_HOME=/usr/local/cuda-12.6 # 安装PyTorch PYTORCH_INDEX_URL=https://download.pytorch.org/whl/cu126 pip3 install torch torchvision torchaudio --index-url $PYTORCH_INDEX_URL # 安装额外依赖 pip3 install packaging ninja wheel setuptools setuptools-scm

安装FlashAttention ⚡

根据你的GPU型号选择合适的FlashAttention版本:

# 对于Hopper GPU git clone git@github.com:Dao-AILab/flash-attention.git cd flash-attention/hopper python setup.py install # 对于Ampere或更早的GPU pip3 install flash-attn

克隆仓库并安装依赖 📦

git clone https://gitcode.com/GitHub_Trending/hrm11/HRM cd HRM pip install -r requirements.txt

快速演示:数独求解器 💻🗲

训练一个能够解决极难数独的AI模型,在现代笔记本GPU上即可运行:

# 下载并构建数独数据集 python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000 # 开始训练(单GPU,较小批量大小) OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0

在RTX 4070笔记本GPU上的运行时间约为10小时。

数据集与评估:验证HRM的推理能力 📊

HRM支持多种推理任务的数据集构建,包括:

  • ARC数据集dataset/build_arc_dataset.py
  • 数独数据集dataset/build_sudoku_dataset.py
  • 迷宫数据集dataset/build_maze_dataset.py

你可以通过puzzle_visualizer.html在浏览器中可视化探索这些谜题。

要评估训练好的模型,可以使用评估脚本:

OMP_NUM_THREADS=8 torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>

然后使用提供的arc_eval.ipynb笔记本最终确定和检查结果。

预训练 checkpoint 资源 🚀

项目提供了多个预训练好的模型 checkpoint:

  • ARC-AGI-2
  • 数独9x9 Extreme(1000个示例)
  • 迷宫30x30 Hard(1000个示例)

这些checkpoint可以帮助你快速开始推理任务,而无需从头训练模型。

结语:小模型的大未来 🌟

HRM以其2700万参数的轻量级模型,在复杂推理任务上超越了许多更大规模的模型,证明了高效架构设计的重要性。这种方法不仅降低了计算资源需求,还为边缘设备上部署强大的推理能力开辟了可能性。

无论是学术研究还是工业应用,HRM都为构建更高效、更智能的推理系统提供了新的思路和方向。随着进一步的优化和扩展,我们有理由相信这种分层推理模型将在更多领域展现其潜力。

如果你对HRM感兴趣,不妨通过项目代码库深入探索其实现细节,并尝试在自己的推理任务中应用这一创新模型。

【免费下载链接】HRMHierarchical Reasoning Model Official Release项目地址: https://gitcode.com/GitHub_Trending/hrm11/HRM

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/485089/

相关文章:

  • 终极HRM硬件要求与优化指南:从RTX 4070到8卡集群的性能提升方案
  • Go OpenGL开发终极指南:gh_mirrors/gl/gl库完全入门教程
  • 2026公众号文章排版工具大比拼!SVG滑动图片用什么工具制作?深度解析三款神器,让你的创作效率瞬间起飞。 - 鹅鹅鹅ee
  • Go 1.14+与gh_mirrors/gl/gl:checkptr问题解决方案与WithOffset函数使用
  • 从0到1理解热成像技术:DIY-Thermocam带你走进红外世界
  • 如何高效准备PHP面试?PHP-Interview-Best-Practices-in-China核心知识点全解析
  • blender_mmd_tools与Cycles渲染:打造逼真MMD模型渲染效果
  • DELL XPS 13-7390 重装系统方法 - yi
  • 为什么你的GDI+动画总是“卡成PPT“?T速度曲线规划的4个秘密武器,让动画丝滑如初
  • [科普] 天线增益与波束宽度
  • 2026加固笔记本优选指南:这些品牌值得一看,国内加固笔记本企业10年质保有保障 - 品牌推荐师
  • Waves区块链数据结构详解:Merkle树与状态管理机制
  • PHP面试中的Redis与Memcached选型:PHP-Interview-Best-Practices-in-China对比分析
  • 9个你不知道的.NET线程秘密:Thread vs Task,谁更胜一筹?
  • 2026年 钢轨厂家实力推荐榜:P43/铁路/外标/天车/U型/单轨吊/永洋/轨道/70MN/50MN钢轨,专业品质与定制化解决方案深度解析 - 品牌企业推荐师(官方)
  • 6城高端腕表维修避坑指南:多品牌故障实测+场景化维修+正规网点全汇总 - 时光修表匠
  • 如何快速入门Esplora:从安装到查询的完整指南
  • 做满意度调研比较好的公司有哪些?26年榜单(选型指南) - 品牌排行榜
  • 2026发膜新品盘点:最值得期待的5款 - 博客万
  • MLLM:移动端快速多模态大模型的终极解决方案
  • 基于springboot的餐饮连锁销售信息管理系统 餐厅预约
  • 解决Midnight-Discord安装难题:常见报错、主题不生效与兼容性问题终极解决方案
  • 为什么很多AI项目无法真正落地:企业AI实践的五个常见误区
  • 如何通过用户行为分析优化Subfinder工具体验:数据驱动的完整指南
  • 深入MLLM的硬件适配:Arm CPU、OpenCL GPU与Hexagon NPU实战
  • 电商后台管理系统RESTful API设计终极指南:mall-admin-web实战解析
  • Takahē:新一代Fediverse服务器详解,轻松搭建你的去中心化社交网络
  • 终极Flysystem文件系统指南:跨服务器文件同步的完整解决方案
  • 小程序web基于多平台的票务系统的设计与实现和电影院票务预定系统
  • 终极指南:Docusaurus状态管理的React Context和全局状态最佳实践