当前位置: 首页 > news >正文

【RL-CISPO】MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

note

  • CISPO是2025年6月minimax提出,放到今天还是有价值的。
  • CISPO强化学习:
    • 传统 PPO / GRPO 这类方法,在做 token 级 clipping 时,
      会把一些“低概率但很关键”的 token(这类token一般是反思、转折、纠错、重新检查等字符,类似思维拐点) 更新给压掉,如果都被clip掉,模型就不容易学会真正的长链反思。
    • 通过裁剪重要性采样权重而不是更新令牌来稳定训练,从而避免了传统PPO/GRPO算法中的令牌裁剪问题。
  • 模型架构优化:它不是纯标准 softmax attention,也不是全线性 attention,
    而是一个 hybrid attention:
    • 大部分层用 lightning attention:线性/闪电注意力负责把长序列成本压低
    • 每隔几层再插一个普通 softmax attention(每 7 个 transnormer/lightning attention block 后接 1 个 softmax attention block):少量 softmax attention 负责保住全局建模能力
  • 训练态和推理态概率不一致,他们发现 hybrid architecture 下:training-mode 的 token probability、inference-mode 的 token probability,本来理论上应该一致,结果实际不一致,直接影响 RL reward 增长。最后他们查到主要问题在 LM output head 的精度,把输出头提到 FP32 后,这个问题才缓解。
  • MiniMax-M1模型在多个复杂场景中表现出色,特别是在软件工程、长上下文和工具使用方面。
    • 软件工程:在SWE-bench验证任务上,MiniMax-M1取得了56.0%的准确率,显著优于其他开源模型。
    • 长上下文理解:在OpenAI-MRCR(1M)任务上,MiniMax-M1取得了58.6%的准确率,排名全球第二,仅次于最新的DeepSeek-R1-0528模型。
    • 工具使用:在TAU-bench(retail)任务上,MiniMax-M1取得了67.8%的准确率,超过了所有其他开源模型,甚至超过了Gemini-2.5 Pro。

文章目录

  • note
  • 一、研究背景
  • 二、MiniMax-M1模型
    • 1、模型架构变化
    • 2、CISPO强化学习算法
      • 1) GRPO 被 clip 后,很多 token 会“没梯度”
      • 2) CISPO 被 clip 后,token 还有梯度
  • 三、模型训练
    • 第一步:继续预训练
    • 第二步:SFT 冷启动
    • 第三步:大规模 RL
  • 三、实验设计
  • 四、实验结果
  • Reference

一、研究背景

  • 研究问题:这篇文章要解决的问题是如何有效地扩展测试时计算能力,以便在大规模推理任务中提高模型的性能。具体来说,作者提出了MiniMax-M1,这是世界上第一个开源的大规模混合注意力推理模型,结合了闪电注意力机制。
  • 研究难点:该问题的研究难点包括:传统Transformer架构中softmax注意力的二次计算复杂度限制了推理长度的扩展;现有的优化技术(如稀疏注意力、线性注意力等)在大规模推理模型中尚未得到充分验证。
  • 相关工作:该问题的研究相关工作包括OpenAI的o1和DeepSeek-R1等模型,这些模型通过大规模强化学习在复杂任务中取得了显著进展。然而,这些模型仍然依赖于传统的注意力设计,且扩展推理过程具有挑战性。

二、MiniMax-M1模型

1、模型架构变化

  • 混合专家(MoE)架构:MiniMax-M1采用了混合MoE架构,结合了多个专家网络来处理不同的输入子集。每个Transformer块后跟随一个闪电注意力模块,理论上可以实现对数百个千token长度的推理。
  • 闪电注意力机制:闪电注意力是一种I/O感知的线性注意力变体,通过减少计算复杂度来实现高效的扩展。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上,从而降低计算复杂度。

MiniMax-M1模型采用了闪电注意力机制,这是一种I/O感知的线性注意力变体。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上,从而降低计算复杂度。具体来说,闪电注意力通过以下步骤实现高效扩展:

  • 傅里叶注意力映射:将长序列的注意力映射到傅里叶域上,减少了计算复杂度。
  • 动态采样和长度惩罚:采用动态采样和长度惩罚技术,进一步降低计算开销。
  • I/O感知设计:闪电注意力机制特别适用于I/O密集型任务,能够在保持高效计算的同时,处理长序列输入。

这些创新使得MiniMax-M1模型能够在大规模推理任务中显著提高计算效率,特别是处理长输入和复杂推理任务时表现出色。

2、CISPO强化学习算法

  • 新算法CISPO:为了进一步提高RL训练效率,作者提出了一种新的RL算法CISPO。CISPO通过裁剪重要性采样权重而不是更新令牌来稳定训练,从而避免了传统PPO/GRPO算法中的令牌裁剪问题。具体公式如下:J CISPO ( θ ) = E ( q , a ) ∼ D , { o i } i = 1 G ∼ π θ old [ 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ r ^ i , t ( θ ) A ^ i , t ] \mathcal{J}_{\text{CISPO}}(\theta) = \mathbb{E}_{(q, a) \sim \mathcal{D}, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \hat{r}_{i,t}(\theta) \hat{A}_{i,t} \right]JCISPO(θ)=E(q,a)D,{oi}i=1GπθoldG1i=1Goi1t=1oir^i,t(θ)A^i,t

其中,r ^ i , t ( θ ) \hat{r}_{i,t}(\theta)r^i,t(θ)是裁剪后的重要性采样权重:
r ^ i , t ( θ ) = clip ( r i , t ( θ ) , 1 − ϵ low , 1 + ϵ high ) \hat{r}_{i,t}(\theta) = \text{clip}\left(r_{i,t}(\theta), 1 - \epsilon_{\text{low}}, 1 + \epsilon_{\text{high}}\right)r^i,t(θ)=clip(ri,t(θ),1ϵlow,1+ϵhigh)


你直觉上看到:

  • GRPO:min ⁡ ( r A , clip ( r ) A ) \min(rA, \text{clip}(r)A)min(rA,clip(r)A)
  • CISPO:clip ( r ) A log ⁡ π θ \text{clip}(r) A \log \pi_\thetaclip(r)Alogπθ

会觉得都用了 clip,好像差不多。

但真正差别是:

1) GRPO 被 clip 后,很多 token 会“没梯度”

A > 0 A > 0A>0r > 1 + ϵ r > 1 + \epsilonr>1+ϵ时,GRPO 里:

min ⁡ ( r A , ( 1 + ϵ ) A ) = ( 1 + ϵ ) A \min(rA, (1 + \epsilon)A) = (1 + \epsilon)Amin(rA,(1+ϵ)A)=(1+ϵ)A
这项对θ \thetaθ来说就是个常数,因为 clip 后那个边界值不再随θ \thetaθ变。所以这部分 token 的梯度没了,等价于:这个 token 被 mask 掉了,不再继续学。论文后面其实把它写成了一个显式 mask 形式:

如果A > 0 A > 0A>0r > 1 + ϵ high r > 1 + \epsilon_{\text{high}}r>1+ϵhigh,或者A < 0 A < 0A<0r < 1 − ϵ low r < 1 - \epsilon_{\text{low}}r<1ϵlow,那M i , t = 0 M_{i,t} = 0Mi,t=0。也就是这个 token 的更新直接被关掉。

2) CISPO 被 clip 后,token 还有梯度

CISPO 是:

r ^ A log ⁡ π θ \hat{r} A \log \pi_\thetar^Alogπθ

其中r ^ = clip ( r ) \hat{r} = \text{clip}(r)r^=clip(r)。论文明确说它是“clip importance sampling weight”,而不是像 PPO/GRPO 那样 clip token updates。

三、模型训练

第一步:继续预训练

他们在 base model 上又继续训了 7.5T tokens,
而且特别提高了:STEM、code、books、reasoning 相关数据,这些数据占比提高到 70%。

第二步:SFT 冷启动

再做一轮 SFT,给模型灌入想要的 CoT pattern,
尤其是 long CoT、reflection 风格的回答。

第三步:大规模 RL

然后才是核心的 RL scaling。
而且 RL 数据不只做数学和代码,还做了很杂的任务:

数学推理
逻辑推理
竞赛编程
软件工程 sandbox
问答
创意写作
instruction following 等

它不是只把模型训成奥数/代码刷题机,而是想把它训成更 agentic 的 reasoning model。

三、实验设计

  • 数据收集:实验数据包括数学推理、逻辑推理、编程竞赛、软件工程和一般领域任务。数据来源包括公开数学竞赛、GitHub仓库、合成数据框架SynLogic等。
  • 实验设置:MiniMax-M1模型在7.5T令牌的数据上进行预训练,然后在监督微调阶段注入特定的链式思维(CoT)模式。RL训练在多种环境中进行,包括数学推理、逻辑推理、编程竞赛和软件工程任务。
  • 参数配置:模型使用AdamW优化器,初始学习率为8e-5,训练过程中逐步衰减。为了应对计算精度不匹配问题,将LM输出头的精度提高到FP32。

四、实验结果

  • 基准测试:在数学推理任务中,MiniMax-M1在AIME 2024和AIME 2025基准上分别取得了86.0%和88.9%的准确率,接近DeepSeek-R1的性能。在编程任务中,MiniMax-M1在LiveCodeBench和FullStackBench上分别取得了65.0%和68.3%的准确率,与Qwen3-235B相当。
  • 复杂场景:在软件工程任务中,MiniMax-M1在SWE-bench验证任务上取得了56.0%的准确率,显著优于其他开源模型。在长期上下文理解任务中,MiniMax-M1在OpenAI-MRCR(1M)上取得了58.6%的准确率,排名全球第二。
  • 工具使用:在代理工具使用任务中,MiniMax-M1在TAU-bench(retail)上取得了67.8%的准确率,超过了所有其他开源模型。

Reference

[1]

http://www.jsqmd.com/news/548595/

相关文章:

  • 别再被PPT里的AGI骗了!ARC-AGI-3惨烈屠榜后,聊聊唯一能落地的“实在”方案
  • 2026年济南金昊化工及同行:消泡剂、过硫酸铵、过硫酸钠、过硫酸钾厂家推荐榜选择指南 - 海棠依旧大
  • md2pptx:重新定义演示文稿创作的自动化解决方案
  • 2026年水稳拌合站设备厂家推荐:河南中嘉水工级配/800型/1000型/磷石膏处理设备全解析 - 品牌推荐官
  • SDXL 1.0电影级绘图工坊:Python入门教程与基础图像处理
  • NX图纸批量导出避坑指南:解决DWG合并中的常见错误与性能优化
  • NaViL-9B保姆级教程:从环境验证到API调用完整流程
  • 起立、起鸿、尼伽如何重塑Micro LED商用格局
  • 避坑指南:在昇腾NPU上给Megatron-LM模型加装“梯度NaN检测”模块,让你的训练不再莫名崩溃
  • 2026智能仓储设备/系统/机器人厂家推荐:浩鲸机器人有限公司全系产品解析 - 品牌推荐官
  • VideoAgentTrek Screen Filter 技术原理浅析:从计算机组成原理看模型推理优化
  • 解密开源启动器启动故障:从报错窗口到系统内核的深度排查
  • 2026金属墙板厂家推荐:四川省志城铝业抗菌/防潮/石纹/隔音/防火等全系金属墙板供应 - 品牌推荐官
  • 终极指南:用taojinbi淘宝自动任务工具每天节省30分钟
  • 免费获取股票数据的Python神器:MOOTDX完整使用指南
  • _seo兵法_在移动端应用中有什么特点__seo兵法_在实际应用中有哪些注意事项
  • WebPlotDigitizer实战指南:从科研图表中智能提取数据的完整方案
  • UniGif:为Unity引擎提供高效GIF解码的动态图像处理方案
  • 天硕(TOPSSD)深度解析:存储介质分类视角下,SSD固态硬盘如何一步步演进?
  • Qwen3-VL宠物健康应用:症状图片识别部署案例
  • Phi-4-Reasoning-Vision效果展示:手写体图像识别+数学推导生成
  • 2026年屋面瓦/仿古瓦/工业厂房用瓦厂家推荐:唐山市丰润区兴业兴彩钢结构有限公司全系供应 - 品牌推荐官
  • 微信小程序-live-player-实时视频-截图与文件流转换实战
  • 3分钟掌握Navicat密码恢复工具:navicat_password_decrypt全攻略
  • 2026年尿酸高、高血脂、脂肪肝肠道调理检测机构怎么选择,这家值得关注 - 工业推荐榜
  • 暗黑破坏神3智能按键助手:告别手酸,效率翻倍的自动化工具
  • 2026年屋面/厂房/风雨操场/球形/篮球馆/煤棚/体育场网架厂家推荐:山东创德金属结构有限公司 - 品牌推荐官
  • 钢铁工业尾气回收利用系统数据采集解决方案
  • Wemod-Patcher功能拓展指南:从基础到进阶的实现路径
  • 小白友好:PyTorch 2.7镜像快速安装第三方库pytorch3d教程