当前位置：首页 > news >正文

万亿参数模型Ring-1T：MoE架构与强化学习突破

news 2026/4/29 3:52:26

在人工智能领域，大型语言模型的发展已经进入了一个全新的阶段。最近，Inclusion AI团队发布了Ring-1T，这是首个开源的、拥有万亿参数规模的思维模型。这个突破性的成果不仅在模型规模上创造了新的记录，更在强化学习训练方法上实现了多项创新。

Ring-1T采用了混合专家(Mixture-of-Experts, MoE)架构，总参数规模达到1万亿，每个token激活约500亿参数。这种设计使得模型能够在保持极高容量的同时，实现相对高效的计算。MoE架构的核心思想是，对于每个输入，只有一部分"专家"网络会被激活，而不是整个模型都参与计算。

提示：MoE架构的关键优势在于它能够在不显著增加计算成本的情况下，大幅提升模型容量。这对于实现万亿参数规模的模型至关重要。

与传统密集模型相比，Ring-1T的MoE设计带来了几个显著优势：

训练如此大规模的模型面临着前所未有的挑战，包括训练-推理不对齐、rollout处理效率低下以及RL系统瓶颈等问题。Ring-1T团队针对这些问题提出了三项关键技术突破：

IcePop通过令牌级差异掩码和裁剪技术解决了训练-推理不匹配导致的稳定性问题。其核心创新在于：

这种方法显著改善了大规模MoE模型的训练稳定性，特别是在长链式思维(Chain-of-Thought)场景下效果尤为明显。

C3PO++引入了预算控制的rollout调度机制，通过动态分区长序列来消除rollout阶段的瓶颈。其关键特点包括：

实测表明，C3PO++将rollout阶段的处理速度提升了约2.5倍，整体训练效率提高了1.5倍。

ASystem是专为大规模异步训练设计的高性能RL框架，采用SingleController + SPMD架构，具有以下核心组件：

这个框架成功解决了万亿参数模型训练中的系统级瓶颈，实现了参数同步时间控制在10秒以内的突破。

Ring-1T的训练采用了多阶段流水线，从基础预训练开始，经过长链式思维监督微调(Long-CoT SFT)，再到大规模强化学习(RL)阶段。这种渐进式的训练策略确保了模型能力的稳步提升。

这一阶段的目标是为基础模型赋予基本的长链推理能力。训练数据覆盖数学(46%)、STEM(26%)、代码(20%)和其他领域(8%)，经过严格的四步清洗流程：

训练采用64k长度的序列，学习率2×10⁻⁴，余弦衰减调度器，30步预热，权重衰减0.1，共训练3个epoch。

这一阶段构建了包含数学、代码、科学和逻辑任务的高质量RL数据集，采用RLVR(基于可验证奖励的强化学习)方法。关键特点包括：

在可验证任务的大规模RL之后，进行第二阶段的通用任务RL，采用RLHF(基于人类反馈的强化学习)来调整模型能力分布，同时保持核心推理能力，并增强：

IcePop的目标函数可以表示为：

J_icepop(θ) = E[1/G Σ (1/|y_i| Σ M(π_train/π_infer)·min(r_i,tÂ_i,t, clip(r_i,t,1-ε,1+ε)Â_i,t) - γD_KL(π_θ∥π_ref))]

其中M(k)是掩码函数： M(k) = k, 当k∈[α,β] M(k) = 0, 其他情况

这种设计确保了只有落在稳定区域的梯度才会被保留，有效解决了训练-推理不对齐问题。

C3PO++的核心算法如下：

初始化参数θ0、推理引擎π_infer、训练引擎π_train、token预算Φ等
维护推理池Pinfer和训练池Qtrain
对于每个训练步骤：
- 重置token计数器C
- 并行处理Pinfer中的rollout
- 当rollout完成时，更新C并将样本移至Qtrain
- 当C≥Φ时，使用Qtrain更新模型参数
移除保留期超过阈值σ的未完成rollout
用新提示补充Pinfer至容量Ω_infer

这种设计实现了rollout的高效管理和资源利用。