当前位置：首页 > news >正文

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

news 2026/6/27 2:15:20

Step 3.5 Flash 文章总结与核心翻译

一、主要内容

本文提出了稀疏混合专家（MoE）模型Step 3.5 Flash，核心目标是弥合前沿级智能体能力与计算效率之间的差距。模型以"精准推理+快速可靠执行"为核心设计原则，采用1960亿总参数基座与仅110亿激活参数的高效架构，通过混合注意力机制、多令牌预测等优化，实现多轮智能体交互的低延迟与低成本。

训练流程分为预训练、中期训练和后训练三个阶段：预训练阶段基于17.6万亿高质量令牌构建基础能力，解决MoE训练中的数值敏感性、专家崩溃等稳定性问题；中期训练将上下文窗口扩展至128k，强化长程推理与智能体核心能力；后训练通过领域专家模型构建、自蒸馏与可扩展强化学习（RL）框架，实现数学、代码、工具使用等领域的持续自我提升。

评估结果显示，该模型在推理（IMO-AnswerBench 85.4%）、代码（LiveCodeBench-v6 86.4%）、智能体任务（τ²-Bench 88.2%）等基准测试中表现优异，性能比肩GPT-5.2 xHigh、Gemini 3.0 Pro等前沿模型，为实际工业环境中复杂智能体的部署提供了高密度基础架构。

二、核心创新点

1. 架构设计创新

混合注意力机制：采用3:1比例的滑动窗口注意力（SWA）与全注意力交织布局，通过增加SWA查询头数量（64→96）和头部门控注意力，在降低计算复杂度的同时弥补性能损失。
高效稀疏Mo

http://www.jsqmd.com/news/474951/

相关文章：

[技术解析] 构建AI驱动的GEO搜索引擎优化平台

Multi-agent cooperation through in-context co-player inference

深入解析MANGOS数据库结构表：魔兽世界私服开发者的终极指南

华为eNSP实战：USG5500防火墙IPsec虚拟专用网配置避坑指南（附拓扑图）

WebWorld: A Large-Scale World Model for Web Agent Training

5分钟搞定frp内网穿透：从零配置到远程访问本地Web服务

构建无限免费的AI编程伙伴：VSCode + Roo Code + Gemini Balance负载均衡策略详解

Netty实战：HttpObjectAggregator如何解决HTTP分块传输的烦恼？

构建低代码平台：通过 Dify 将 Flux Sea Studio 能力封装为可视化 AI 工作流

保姆级教程：神州数码交换机/路由器/防火墙串口恢复出厂设置全攻略（附SecureCRT配置）

小白也能玩转CVPR模型：MogFace人脸检测工具部署实录

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

避坑指南：用Python的OP模块开发游戏脚本时遇到的5个常见问题

从零理解NP-Hard：程序员如何用近似算法搞定这些‘不可能’问题？

ChatGPT登录失败问题深度解析：从诊断到修复的实战指南

【TJXT】Day 12

python入门基础练习

从平面到立体：ArcGIS Pro与Aerialod协同打造三维夜间灯光分布图

手把手教你开发游戏派单小程序：从注册登录到财务对账的完整配置流程

实时对比展示：伏羲AI模型、欧洲中心ECMWF及美国GFS全球预报效果

万维网30年进化史：从HTTP/1.0到HTTP/3的底层协议变革

学习笔记-计算机存储与数据表示基础

为什么你的UVM重载不生效？详解factory机制4大必备条件（附排查清单）

ChatGPT显示Unable to Load Site错误：诊断与修复指南

从CANoe到TSMaster：资深工程师的汽车软件工具链进阶实战指南

【技术解析】Mask2Former：基于掩码注意力的通用图像分割新范式

避坑指南：HyperMesh四面体网格划分失败的7个常见原因及修复方法（附错误案例）

文墨共鸣大模型SolidWorks设计文档智能分析与摘要生成

【C语言简明教程提纲】(三):字符串与编译预处理

【OpenClaw】Edict 三省六部制使用与实战流程