当前位置：首页 > news >正文

Ring-flash-2.0开源：6.1B参数实现极速推理新突破！

news 2026/3/26 17:36:12

Ring-flash-2.0开源：6.1B参数实现极速推理新突破！

【免费下载链接】Ring-flash-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

导语：inclusionAI正式开源Ring-flash-2.0大模型，通过创新的MoE架构和IcePop算法，仅激活6.1B参数即可实现媲美40B稠密模型的复杂推理能力，同时达成200+ tokens/sec的极速推理速度，为高性能大模型的普及应用带来新可能。

行业现状：大模型性能与效率的平衡难题

当前大语言模型领域正面临"能力-效率"的双重挑战。一方面，复杂任务如数学竞赛、代码生成和逻辑推理对模型规模和训练方法提出更高要求；另一方面，模型参数量的爆炸式增长导致部署成本急剧上升，推理速度成为落地瓶颈。据行业数据显示，参数量超过100B的大模型单次推理成本是10B模型的20倍以上，而推理延迟往往超过用户可接受的阈值。

混合专家模型（Mixture of Experts, MoE）被视为解决这一矛盾的关键路径，通过仅激活部分专家参数实现"大模型能力、小模型成本"的目标。然而，MoE模型在强化学习阶段的训练不稳定性问题长期制约其性能提升，成为行业共同面临的技术瓶颈。

模型亮点：三大核心突破重新定义高效推理

1. 突破性效率：6.1B激活参数实现40B级性能

Ring-flash-2.0基于100B参数量的MoE架构，通过创新的"1/32专家激活比例"设计，在推理时仅激活6.1B参数（其中非嵌入参数4.8B），却能实现媲美40B稠密模型的性能表现。这一设计使模型在数学竞赛（AIME 25、Omni-MATH）、代码生成（LiveCodeBench、CodeForce-Elo）和逻辑推理（ARC-Prize）等基准测试中均取得领先成绩，同时在科学医疗推理（GPQA-Diamond、HealthBench）等专业领域展现出强大竞争力。

尤为值得关注的是，尽管专为复杂推理优化，该模型在创意写作（Creative Writing v3）任务上仍超越所有对比模型，保持了与同系列非推理模型相当的创作能力，打破了"推理型模型缺乏创造力"的固有认知。

2. 极速推理体验：200+ tokens/sec的部署效率

依托高度稀疏的激活设计和MTP层结构优化，Ring-flash-2.0在仅使用4张H20 GPU的情况下，即可实现超过200 tokens/秒的生成速度。这一性能指标意味着复杂推理任务的响应时间将从传统模型的分钟级缩短至秒级，大幅提升用户体验的同时，显著降低高并发场景下的部署成本。

对比当前主流开源模型，Ring-flash-2.0在保持相近性能的前提下，硬件需求降低60%以上，推理速度提升3-5倍，为大模型在实时交互场景的应用扫清了效率障碍。

3. IcePop算法：解决MoE模型强化学习难题

针对MoE模型在强化学习中面临的训练-推理精度差异问题，Ring-flash-2.0团队开发了创新性的IcePop算法。该算法通过"双向截断"和"掩码机制"两大核心技术，有效缩小了训练与推理之间的分布差距：双向截断同时处理训练概率显著高于和低于推理概率的 token，掩码机制则将差异过大的 token 排除梯度计算。

这一技术突破成功解决了传统GRPO算法在长序列训练中易崩溃的问题，使模型能够在超长训练周期内保持稳定的性能提升，为MoE模型的强化学习训练提供了新的技术范式。

行业影响：开启高效能大模型应用新纪元

Ring-flash-2.0的开源发布将对AI行业产生多维度影响。在技术层面，其"小激活大模型"的设计理念和IcePop算法为高效能模型研发提供了可复用的技术路线；在应用层面，200+ tokens/sec的推理速度使实时复杂推理成为可能，为教育、医疗、代码开发等对响应速度敏感的场景带来革新性体验。

对于企业用户而言，该模型将显著降低高性能AI应用的部署门槛——仅需4张H20 GPU即可支撑企业级复杂推理需求，硬件投入成本降低70%以上。而对于开发者社区，开源的Ring-flash-2.0提供了完整的训练和部署方案，包括vLLM和SGLang等高效推理框架的支持，将加速相关领域的技术创新。