当前位置：首页 > news >正文

11B参数狂飙350 tok/s！Step 3.5 Flash极速AI模型登场

news 2026/5/16 11:19:03

11B参数狂飙350 tok/s！Step 3.5 Flash极速AI模型登场

【免费下载链接】Step-3.5-Flash-Base项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash-Base

导语：StepFun公司推出的Step 3.5 Flash Base模型以1960亿总参数、110亿激活参数的稀疏混合专家（MoE）架构，实现了高达350 tokens/s的生成速度，同时在推理、编码和智能体能力上达到行业前沿水平，重新定义了大模型效率与性能的平衡。

行业现状：效率与性能的双重挑战

当前大语言模型领域正面临"参数军备竞赛"与"落地效率瓶颈"的双重挑战。一方面，主流闭源模型参数规模已突破万亿，推理能力持续提升但部署成本高昂；另一方面，开发者与企业对模型响应速度、硬件门槛和数据隐私的需求日益迫切。据行业报告显示，超过68%的企业AI应用因推理延迟问题影响用户体验，而本地部署的算力成本仍是中小企业采用大模型的主要障碍。在此背景下，兼具高性能与高效率的模型成为市场新宠。

模型亮点：四大核心突破重新定义效率标杆

Step 3.5 Flash Base通过创新架构设计，在四个关键维度实现突破：

1. 稀疏激活的MoE架构：11B参数实现196B性能
采用288个路由专家+1个共享专家的精细设计，每token仅激活Top-8专家，使模型在保留1960亿参数"记忆容量"的同时，实际执行仅相当于110亿参数模型的计算量。这种"智能密度"设计让模型既能处理复杂推理任务，又保持了轻量级部署的优势。

2. 多token预测技术：单流编码峰值达350 tok/s
独创的3路多token预测（MTP-3）技术，通过滑动窗口注意力与密集前馈网络结合，实现单次前向传播生成4个token。在典型场景下可达到100-300 tok/s的生成速度，单流编码任务中更是创下350 tok/s的极速表现，较同类模型提升2-3倍。

3. 混合注意力机制：256K上下文的成本优化
采用3:1比例的滑动窗口注意力（SWA）与全注意力混合架构，每3层SWA层配置1层全注意力层，在支持256K超长上下文窗口的同时，将计算开销降低40%以上，解决了传统长上下文模型的效率难题。

4. 本地化部署友好：高端消费级硬件即可运行
针对本地部署进行深度优化，可在Mac Studio M4 Max或NVIDIA DGX Spark等高端消费级硬件上流畅运行，无需依赖昂贵的企业级GPU集群，在保证数据隐私的同时大幅降低部署门槛。

性能表现：对标闭源模型的开源新势力

在基准测试中，Step 3.5 Flash Base展现出与顶级闭源模型相当的性能水平：在BBH推理基准达到88.2分，MMLU综合评测85.8分，GSM8K数学推理88.2分。特别值得注意的是其编码能力，HumanEval评测81.1分，SWE-bench Verified达到74.4%，Terminal-Bench 2.0则获得51.0%的成绩，证明其在复杂编程任务和智能体操作方面的突出表现。

与同类开源模型相比，Step 3.5 Flash Base在激活参数仅11B的情况下，多项指标超越了激活参数15B-37B的竞品，充分验证了其架构设计的先进性。官方推荐推理参数为：通用对话场景temperature=0.6、top_p=0.95；推理/智能体场景temperature=1.0、top_p=0.95。

行业影响：开启高效智能体时代

Step 3.5 Flash Base的推出将对AI行业产生多重影响：首先，其开源特性（包括训练代码库SteptronOss和即将开源的SFT数据）将加速学术界对MoE架构的研究与应用；其次，极速推理能力为实时智能体应用奠定基础，特别是在代码助手、自动化运维和实时决策系统等领域；最后，本地化部署能力降低了企业采用大模型的门槛，有望推动AI应用在更多行业的普及。

结论与前瞻：效率优先的大模型发展新方向

Step 3.5 Flash Base通过稀疏激活、多token预测等创新技术，成功在性能与效率间取得平衡，预示着大模型发展正从"参数竞赛"转向"架构优化"的新阶段。随着训练代码库的开放和持续优化，该模型有望成为开源社区构建高效智能体的基础平台。未来，我们或将看到更多结合领域知识微调的垂直行业版本，进一步释放高效大模型的应用潜力。

【免费下载链接】Step-3.5-Flash-Base项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash-Base

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/547730/