当前位置: 首页 > news >正文

HRM-Text:1500美元训出的1B模型,凭什么火了?

目录

前言

一、HRM-Text是什么?

二、环境/前置准备

三、实操步骤

四、使用指南

五、HRM架构的深层意义

总结


前言


最近AI圈有个消息炸了——一个参数量仅1B的小模型,训练成本只要1500美元,却在多个推理benchmark上打出了一组让人难以置信的成绩:
Benchmark HRM-Text 对比模型
MMLU 60.7% 2-7B模型水平
ARC-Challenge 81.9% 超越多数3B+模型
GSM8K 84.5% 接近7B模型
MATH 56.2% 推理模型第一梯队
DROP 82.2% 优秀
更离谱的是,它只用了约40B unique tokens训练,而Llama 3.2 3B用了约9T tokens(225倍),Qwen3 2B用了约36T tokens(900倍)。
HuggingFace CEO Clem Delangue亲自转发推荐,图灵奖得主Yoshua Bengio团队也发布了高度复用HRM架构的GRAM论文。
今天我们就来深度拆解这个HRM-Text,看看它到底做了什么,以及我们如何上手使用。

一、HRM-Text是什么?


HRM-Text是由Sapient Intelligence发布的一个基础语言模型,全称是Hierarchical Recurrent Model for Text。
它不是传统意义上的"小模型逆袭"故事,而是一次推理模型架构的换脑实验——把模型从"边说边想"变成"先想完再说"。
核心创新点
1. 分层递归推理架构(HRM)
标准Transformer像一条流水线,输入进来,一层一层往前走,每一层处理一次,最后输出。
HRM的思路完全不同:它在模型内部放了两个以不同节奏工作的模块:
• 高层模块H(战略脑):更新得慢,负责把握整体方向、维持长期上下文、决定当前应该往哪里想
• 低层模块L(执行脑):更新得快,负责局部计算、细节修正、一步步把问题往前推
关键在于,H和L不是两个外部Agent,也不是两个模型互相发消息。它们在同一个神经网络里,在同一个潜空间中,反复更新同一份内部状态。
打个比方:标准Transformer像一篇文章依次交给30个编辑,每个人只改一次。HRM更像两组编辑反复打磨同一份稿子——一组快速改细节,一组慢慢把握整体方向。最后输出之前,模型已经在脑内完成了多轮修正。
2. 潜空间推理(Latent Reasoning)
现在的推理模型,很多时候像是在"边说边想"。Chain-of-Thought把推理过程写成一串token,让模型一步一步输出中间过程。
这当然有用,但问题也很明显:
• Token越来越长,账单越来越高
• 中间一步错了,后面就可能一路错下去
• 推理过程被绑定在语言表面,模型很容易学到"像推理的文本",却不一定真的掌握了"推理的结构"
HRM问的是一个更激进的问题:推理为什么一定要写出来?
人类做很多题,并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退,最后才说出答案。HRM想做的,正是这件事——把草稿纸从嘴上拿下来,放回模型的脑子里。
3. 任务完成导向的训练目标
大多数语言模型训练时,会预测整个文本序列里的每一个token——问题、提示、上下文、答案,统统要预测。
HRM-Text更直接:它用instruction-response数据从零训练,但只对回答部分计算损失。
直观理解就是:老师批卷子时,不再给"抄题"打分,只看你答得对不对。这样训练信号会更集中地落在任务完成上,而不是平均分散在整段文本里。
这部分的关键是PrefixLM attention mask:指令部分可以充分整合上下文;回答部分再按因果生成方式输出。结果就是,在decoder-only的实现里,做出了一种近似encoder-decoder的效果。
4. MagicNorm + Warmup Deep Credit Assignment
递归训练的难点在于:循环越深,训练越容易不稳定。同一组模块被反复调用后,激活值方差可能累积,梯度也更容易消失或爆炸。
HRM-Text引入:
• MagicNorm:让模型在多轮递归中保持激活稳定
• Warmup Deep Credit Assignment:不是一上来就让模型为所有深层递归步骤负责,而是先让它学会短路径上的内部计算,再慢慢把责任扩展到更深的推理过程

二、环境/前置准备


官方资源
资源 链接
GitHub https://github.com/sapientinc/HRM-Text
HuggingFace模型 https://huggingface.co/sapientinc/HRM-Text-1B
硬件要求
根据官方信息,HRM-Text-1B的训练只需要:
• 16块H100,跑不到两天
• 训练成本约1500美元
推理阶段,1B模型在单张A100或甚至消费级GPU(如RTX 4090)上即可流畅运行。
环境搭建
# 1. 克隆仓库
git clone https://github.com/sapientinc/HRM-Text.git
cd HRM-Text

# 2. 安装依赖
pip install -r requirements.txt

# 3. 从HuggingFace下载模型
# 模型会自动从HuggingFace Hub下载,或手动下载权重放到weights/目录

三、实操步骤


步骤1:快速推理测试
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载模型和tokenizer
model_name = "sapientinc/HRM-Text-1B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)

# 准备输入(instruction-response格式)
prompt = """### Instruction:
请解释一下什么是递归,并举一个生活中的例子。

### Response:"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成
outputs = model.generate(
**inputs,
max_new_tokens=256,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.eos_token_id
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
步骤2:批量推理(评估Benchmark)
# 官方评估脚本示例
python evaluate.py \
--model sapientinc/HRM-Text-1B \
--tasks mmlu,arc_challenge,gsm8k,math,drop \
--batch_size 8 \
--num_fewshot 5
步骤3:自定义微调

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
output_dir="./hrm-text-finetuned",
per_device_train_batch_size=4,
gradient_accumulation_steps=8,
learning_rate=2e-5,
num_train_epochs=3,
fp16=True,
logging_steps=10,
save_strategy="epoch",
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset, # instruction-response格式
tokenizer=tokenizer,
)

trainer.train()

四、使用指南


HRM-Text的适用场景
场景 推荐度 说明
数学推理 ⭐⭐⭐⭐⭐ GSM8K 84.5%, MATH 56.2%
逻辑推理 ⭐⭐⭐⭐⭐ ARC-C 81.9%
阅读理解 ⭐⭐⭐⭐ DROP 82.2%
通用对话 ⭐⭐⭐ 未经过RLHF优化
知识问答 ⭐⭐⭐ 训练数据量有限
代码生成 ⭐⭐⭐ 需微调
注意事项
1. 这不是一个成熟的聊天模型:HRM-Text目前只是Proof of Concept,没有经过完整的post-training、RLHF或大规模产品化验证
2. 知识覆盖有限:仅使用约40B unique tokens训练,知识覆盖不如大模型
3. 长上下文能力待验证:官方未公布长上下文测试结果
4. 工具使用能力待验证:尚未展示Agent/工具调用能力
与同类模型对比
模型 参数量 训练Token 训练成本 MMLU ARC-C
HRM-Text 1B 40B ~$1,500 60.7% 81.9%
Llama 3.2 3B 3B 9T ~$数百万 ~50% ~65%
Qwen3 2B 2B 36T ~$数百万 ~55% ~70%


五、HRM架构的深层意义


HRM-Text的意义,不只是"1B模型已经赢了"。它让行业看到了:模型能力增长,除了参数、数据和算力之外,也许还有另一个更底层的变量——计算结构。
从"写出思维链"到"形成内部思维结构"
下一代推理模型,不应该只靠输出更长的文字链条,而应该在潜空间中进行更深的内部计算。
HRM的贡献,是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。而Bengio团队参与的GRAM论文,进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。
企业AI建设的启示
对企业来说,当前AI落地面临的核心问题,不只是模型能力不够,而是:
• 训练贵
• 基础设施重
• 迭代周期慢
• 试错成本高
HRM-Text提供的启发是:如果模型架构本身能够提高计算效率,那么企业AI能力建设不必完全依赖更大模型和更重基础设施。
未来方向
Sapient对HRM的长期判断可以概括为:Lean General Intelligence(精简通用智能)。
• 模型不需要记住一切,但需要学会如何思考、如何查找、如何学习、如何使用信息
• 这就是reasoning-knowledge decoupling(推理-知识解耦)
未来HRM可以作为底层推理内核(Reasoning Core),扮演:
• Reliability Diagnostician:诊断复杂系统稳定性
• System Optimizer:分析系统行为、发现性能瓶颈
• Data Organizer:把企业知识组织成可检索、可推理的记忆系统
• Tool Calling Director:决定何时调用哪个工具,规划调用顺序


总结


HRM-Text的出现,提醒整个行业:AI的未来,不应该只有一条路。
更大的模型会继续重要,但更会思考的模型,可能才是下一轮推理架构真正的入口。
从HRM-Symbolic到HRM-Text,再到Bengio参与的GRAM对HRM骨架的高度复用,分层递归推理已经不再只是Sapient的内部路线,而正在成为下一代推理模型的重要方向。



如果觉得这篇文章对你有帮助,欢迎点赞、收藏、评论!我们明天继续分享最新的AI技术资讯和实战教程。

http://www.jsqmd.com/news/1014328/

相关文章:

  • 地表温度数据怎么选?一文讲透MODIS、GLASS、TRIMS三大LST数据集的区别与应用场景
  • MCIMX27 WEIM模块配置:外部存储器接口时序设计与调试实战
  • OBS Advanced Timer:直播时间管理的终极免费解决方案
  • 如何三分钟完成Windows与Office永久激活:一站式智能解决方案完全指南
  • 终极指南:OCLP-Mod深度解析 - 让老旧Mac重获新生的专业解决方案
  • 戴森球计划8000+工厂蓝图终极指南:从新手到专家的高效工厂建设方案
  • 2026年6月最新版营口正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • AI 配色工具实战:把色彩心理学变成代码
  • 5分钟掌握专业级QQ音乐解析:Python实现无损音质与批量下载终极方案
  • YOLO26涨点改进| TCSVT 2026|独家创新、特征融合改进篇|引入MAFE模态感知特征增强模块,Neck特征融合阶段进行模态感知增强,助力目标检测,遥感目标检测、多模态融合目标检测有效涨点
  • 从雷达工程师的视角:深入聊聊DBF、MUSIC、ESPRIT这些DOA算法,到底谁更抗干扰、谁算得更快?
  • GEO问答优化可以持续引流吗
  • NVIDIA Cosmos 3与物理AI元年:全模态世界模型+FOX工厂蓝图
  • 英雄联盟玩家的3个痛点,这款开源工具如何帮你解决?
  • 2026年6月最新版乌兰察布正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • 如何打造个人数字记忆库:WeChatMsg全面指南助你永久保存聊天数据
  • 即梦AI去除水印的方法,实测横评 - 科技热点发布
  • 重庆市创丽宅元物业管理有限责任公司简介 - GrowthUME
  • 测试工具:Toxiproxy
  • 2026年6月最新版许昌正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • 终极AutoHotkey V2脚本转换器:一键升级旧版代码的完整方案
  • LeetDown iOS降级工具:让旧款iPhone/iPad重获流畅体验的完整教程
  • 保姆级教程:手把手将EfficientDet的BiFPN移植到YOLOv5,附完整可运行代码
  • Linux rm-rf 执行后,硬盘空间变化
  • 3步掌握专业歌词制作:LRC Maker让音乐与文字完美同步
  • 2026年6月最新版铜川正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • 2026年抖音水印彻底去除实用指南 - 科技热点发布
  • 有关Java中集合的知识
  • 2026年6月最新版永州正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • Windows平台AirPlay 2高效实现:专业级跨设备投屏解决方案深度解析