当前位置：首页 > news >正文

Ring-flash-2.0开源：6.1B参数掀起推理效率风暴！

news 2026/7/4 9:24:06

Ring-flash-2.0开源：6.1B参数掀起推理效率风暴！

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

导语：inclusionAI正式开源高性能推理模型Ring-flash-2.0，凭借6.1B激活参数实现媲美40B稠密模型的复杂推理能力，200+tokens/秒的生成速度重新定义大模型推理效率标准。

行业现状：大模型的"效率困境"与突破方向

当前大语言模型领域正面临"性能-效率"的双重挑战。一方面，复杂推理任务（如数学竞赛、代码生成）对模型能力提出更高要求，推动参数规模持续膨胀；另一方面，企业级部署面临高昂的计算成本和 latency压力。据行业调研，推理成本已占大模型总拥有成本（TCO）的60%以上，成为制约大模型规模化应用的关键瓶颈。

混合专家模型（Mixture of Experts, MoE）被视为解决这一矛盾的重要路径，其核心思想是通过激活部分参数（专家）实现计算资源的动态分配。然而MoE模型在强化学习训练中普遍存在稳定性差、推理精度与训练精度偏差等问题，尤其是在长序列推理场景下，传统训练算法往往在有限步数内就会出现性能崩溃。

模型亮点：效率与性能的双重突破

1. 突破性推理效率：6.1B激活参数实现"以小博大"

Ring-flash-2.0基于Ling-flash-base-2.0构建，采用深度优化的MoE架构设计，总参数规模达100B，但每次推理仅激活6.1B参数（其中4.8B为非嵌入参数）。这一设计通过1/32专家激活比例和MTP（Multi-Expert Token Processing）层等结构性优化，实现了"轻量级激活、高性能输出"的突破，其性能已媲美约40B参数的稠密模型，而计算资源消耗仅为传统模型的1/6。

在实际部署中，Ring-flash-2.0展现出惊人的速度优势——在仅使用4张H20 GPU的情况下，即可实现200+tokens/秒的生成速度，这一指标较同级别开源模型提升约3倍，大幅降低了高并发场景下的推理成本。

2. 复杂推理能力全面领先

该模型在多项挑战性基准测试中表现突出：

数学推理：在AIME 25（美国数学邀请赛）和Omni-MATH数据集上超越GPT-OSS-120B(medium)和Qwen3-32B-Thinking等竞品
代码生成：LiveCodeBench和CodeForce-Elo评分达到开源模型领先水平
逻辑推理：ARC-Prize数据集表现优于Seed-OSS-36B-Instruct
专业领域：在GPQA-Diamond（科学推理）和HealthBench（医疗推理）等专业数据集上展现出强劲竞争力

值得注意的是，尽管主打复杂推理能力，Ring-flash-2.0在Creative Writing v3测试中仍超越所有对比模型，保持了与非推理专用模型Ling-flash-2.0相当的创作能力，实现了"理性"与"感性"的平衡。

3. IcePop算法：破解MoE模型强化学习难题

Ring-flash-2.0的核心技术突破在于自研的IcePop算法，针对性解决了MoE模型在强化学习中的训练-推理精度偏差问题。传统GRPO算法在长序列训练中会出现概率差异累积（当相对差异超过5%时训练失效），而IcePop通过"双向截断掩码校准"机制：

双向截断：同时处理训练概率显著高于和低于推理概率的token
动态掩码：将差异过大的token排除梯度计算

这一创新使模型能够在超长训练周期中保持稳定学习，尤其适用于需要深度推理的长上下文场景，为MoE模型的强化学习训练提供了新范式。

4. 多阶段训练流水线：SFT+RLVR+RLHF

为全面提升模型能力，Ring-flash-2.0采用三阶段训练策略：

轻量化Long-CoT SFT：通过长思维链监督微调，为基础模型注入多样化推理模式
RLVR（Reinforcement Learning with Verifiable Rewards）：利用可验证奖励机制持续激发推理潜力
RLHF（人类反馈强化学习）：优化模型的通用能力和交互体验

实验表明，这种两阶段强化学习（先RLVR后RLHF）相比联合训练能有效减少长尾生成问题，同时提升工程效率，使模型在保持推理能力的同时具备良好的用户体验。

行业影响：重新定义推理模型的性价比标准

Ring-flash-2.0的开源将对大模型行业产生多维度影响：

技术层面，IcePop算法为MoE模型的强化学习训练提供了可复用的解决方案，有望推动更多高效推理模型的研发；商业层面，6.1B激活参数的设计使企业能够以更低成本部署高性能推理服务，特别利好金融风控、科学计算、代码辅助等对推理能力要求高的场景；开源生态层面，该模型提供完整的vLLM和SGLang部署支持，降低了高效推理技术的应用门槛。

随着模型参数规模增长趋缓，"激活效率"正成为新的竞争焦点。Ring-flash-2.0展示的"小激活，大能力"模式，可能预示着大模型发展从"参数竞赛"转向"效率竞赛"的行业趋势。