当前位置：首页 > news >正文

HRM-Text：1500美元训出的1B模型，凭什么火了？

news 2026/6/14 21:57:50

前言

一、HRM-Text是什么？

二、环境/前置准备

三、实操步骤

四、使用指南

五、HRM架构的深层意义

总结

前言

最近AI圈有个消息炸了——一个参数量仅1B的小模型，训练成本只要1500美元，却在多个推理benchmark上打出了一组让人难以置信的成绩：
Benchmark HRM-Text 对比模型
MMLU 60.7% 2-7B模型水平
ARC-Challenge 81.9% 超越多数3B+模型
GSM8K 84.5% 接近7B模型
MATH 56.2% 推理模型第一梯队
DROP 82.2% 优秀
更离谱的是，它只用了约40B unique tokens训练，而Llama 3.2 3B用了约9T tokens（225倍），Qwen3 2B用了约36T tokens（900倍）。
HuggingFace CEO Clem Delangue亲自转发推荐，图灵奖得主Yoshua Bengio团队也发布了高度复用HRM架构的GRAM论文。
今天我们就来深度拆解这个HRM-Text，看看它到底做了什么，以及我们如何上手使用。

一、HRM-Text是什么？

HRM-Text是由Sapient Intelligence发布的一个基础语言模型，全称是Hierarchical Recurrent Model for Text。
它不是传统意义上的"小模型逆袭"故事，而是一次推理模型架构的换脑实验——把模型从"边说边想"变成"先想完再说"。
核心创新点
1. 分层递归推理架构（HRM）
标准Transformer像一条流水线，输入进来，一层一层往前走，每一层处理一次，最后输出。
HRM的思路完全不同：它在模型内部放了两个以不同节奏工作的模块：
• 高层模块H（战略脑）：更新得慢，负责把握整体方向、维持长期上下文、决定当前应该往哪里想
• 低层模块L（执行脑）：更新得快，负责局部计算、细节修正、一步步把问题往前推
关键在于，H和L不是两个外部Agent，也不是两个模型互相发消息。它们在同一个神经网络里，在同一个潜空间中，反复更新同一份内部状态。
打个比方：标准Transformer像一篇文章依次交给30个编辑，每个人只改一次。HRM更像两组编辑反复打磨同一份稿子——一组快速改细节，一组慢慢把握整体方向。最后输出之前，模型已经在脑内完成了多轮修正。
2. 潜空间推理（Latent Reasoning）
现在的推理模型，很多时候像是在"边说边想"。Chain-of-Thought把推理过程写成一串token，让模型一步一步输出中间过程。
这当然有用，但问题也很明显：
• Token越来越长，账单越来越高
• 中间一步错了，后面就可能一路错下去
• 推理过程被绑定在语言表面，模型很容易学到"像推理的文本"，却不一定真的掌握了"推理的结构"
HRM问的是一个更激进的问题：推理为什么一定要写出来？
人类做很多题，并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退，最后才说出答案。HRM想做的，正是这件事——把草稿纸从嘴上拿下来，放回模型的脑子里。
3. 任务完成导向的训练目标
大多数语言模型训练时，会预测整个文本序列里的每一个token——问题、提示、上下文、答案，统统要预测。
HRM-Text更直接：它用instruction-response数据从零训练，但只对回答部分计算损失。
直观理解就是：老师批卷子时，不再给"抄题"打分，只看你答得对不对。这样训练信号会更集中地落在任务完成上，而不是平均分散在整段文本里。
这部分的关键是PrefixLM attention mask：指令部分可以充分整合上下文；回答部分再按因果生成方式输出。结果就是，在decoder-only的实现里，做出了一种近似encoder-decoder的效果。
4. MagicNorm + Warmup Deep Credit Assignment
递归训练的难点在于：循环越深，训练越容易不稳定。同一组模块被反复调用后，激活值方差可能累积，梯度也更容易消失或爆炸。
HRM-Text引入：
• MagicNorm：让模型在多轮递归中保持激活稳定
• Warmup Deep Credit Assignment：不是一上来就让模型为所有深层递归步骤负责，而是先让它学会短路径上的内部计算，再慢慢把责任扩展到更深的推理过程

二、环境/前置准备

官方资源
资源链接
GitHub https://github.com/sapientinc/HRM-Text
HuggingFace模型 https://huggingface.co/sapientinc/HRM-Text-1B
硬件要求
根据官方信息，HRM-Text-1B的训练只需要：
• 16块H100，跑不到两天
• 训练成本约1500美元
推理阶段，1B模型在单张A100或甚至消费级GPU（如RTX 4090）上即可流畅运行。
环境搭建
# 1. 克隆仓库
git clone https://github.com/sapientinc/HRM-Text.git
cd HRM-Text

# 2. 安装依赖
pip install -r requirements.txt

# 3. 从HuggingFace下载模型
# 模型会自动从HuggingFace Hub下载，或手动下载权重放到weights/目录

三、实操步骤

步骤1：快速推理测试
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载模型和tokenizer
model_name = "sapientinc/HRM-Text-1B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)

# 准备输入（instruction-response格式）
prompt = """### Instruction:
请解释一下什么是递归，并举一个生活中的例子。

### Response:"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成
outputs = model.generate(
**inputs,
max_new_tokens=256,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.eos_token_id
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
步骤2：批量推理（评估Benchmark）
# 官方评估脚本示例
python evaluate.py \
--model sapientinc/HRM-Text-1B \
--tasks mmlu,arc_challenge,gsm8k,math,drop \
--batch_size 8 \
--num_fewshot 5
步骤3：自定义微调

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
output_dir="./hrm-text-finetuned",
per_device_train_batch_size=4,
gradient_accumulation_steps=8,
learning_rate=2e-5,
num_train_epochs=3,
fp16=True,
logging_steps=10,
save_strategy="epoch",
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset, # instruction-response格式
tokenizer=tokenizer,
)

trainer.train()

四、使用指南

HRM-Text的适用场景
场景推荐度说明
数学推理 ⭐⭐⭐⭐⭐ GSM8K 84.5%, MATH 56.2%
逻辑推理 ⭐⭐⭐⭐⭐ ARC-C 81.9%
阅读理解 ⭐⭐⭐⭐ DROP 82.2%
通用对话 ⭐⭐⭐ 未经过RLHF优化
知识问答 ⭐⭐⭐ 训练数据量有限
代码生成 ⭐⭐⭐ 需微调
注意事项
1. 这不是一个成熟的聊天模型：HRM-Text目前只是Proof of Concept，没有经过完整的post-training、RLHF或大规模产品化验证
2. 知识覆盖有限：仅使用约40B unique tokens训练，知识覆盖不如大模型
3. 长上下文能力待验证：官方未公布长上下文测试结果
4. 工具使用能力待验证：尚未展示Agent/工具调用能力
与同类模型对比
模型参数量训练Token 训练成本 MMLU ARC-C
HRM-Text 1B 40B ~$1,500 60.7% 81.9%
Llama 3.2 3B 3B 9T ~$数百万 ~50% ~65%
Qwen3 2B 2B 36T ~$数百万 ~55% ~70%

五、HRM架构的深层意义

HRM-Text的意义，不只是"1B模型已经赢了"。它让行业看到了：模型能力增长，除了参数、数据和算力之外，也许还有另一个更底层的变量——计算结构。
从"写出思维链"到"形成内部思维结构"
下一代推理模型，不应该只靠输出更长的文字链条，而应该在潜空间中进行更深的内部计算。
HRM的贡献，是先把高层—低层双时间尺度递归推理做成了可运行、可开源、可验证的模型系统。而Bengio团队参与的GRAM论文，进一步把这种递归潜空间推理推进到概率生成、多轨迹采样的方向。
企业AI建设的启示
对企业来说，当前AI落地面临的核心问题，不只是模型能力不够，而是：
• 训练贵
• 基础设施重
• 迭代周期慢
• 试错成本高
HRM-Text提供的启发是：如果模型架构本身能够提高计算效率，那么企业AI能力建设不必完全依赖更大模型和更重基础设施。
未来方向
Sapient对HRM的长期判断可以概括为：Lean General Intelligence（精简通用智能）。
• 模型不需要记住一切，但需要学会如何思考、如何查找、如何学习、如何使用信息
• 这就是reasoning-knowledge decoupling（推理-知识解耦）
未来HRM可以作为底层推理内核（Reasoning Core），扮演：
• Reliability Diagnostician：诊断复杂系统稳定性
• System Optimizer：分析系统行为、发现性能瓶颈
• Data Organizer：把企业知识组织成可检索、可推理的记忆系统
• Tool Calling Director：决定何时调用哪个工具，规划调用顺序

总结

HRM-Text的出现，提醒整个行业：AI的未来，不应该只有一条路。
更大的模型会继续重要，但更会思考的模型，可能才是下一轮推理架构真正的入口。
从HRM-Symbolic到HRM-Text，再到Bengio参与的GRAM对HRM骨架的高度复用，分层递归推理已经不再只是Sapient的内部路线，而正在成为下一代推理模型的重要方向。

如果觉得这篇文章对你有帮助，欢迎点赞、收藏、评论！我们明天继续分享最新的AI技术资讯和实战教程。

查看全文

http://www.jsqmd.com/news/1014328/