当前位置：首页 > news >正文

【Qwen3.6】关键技术：线性注意力（Linear Attention/DeltaNet）和标准多头注意力（Standard Attention）混合

news 2026/7/25 2:05:11

官方材料

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/blob/main/README.md

一款非常前沿的混合架构大模型，Qwen3.6-35B-A3B下一代 Qwen 模型。

这个模型的核心创新在于它不是纯粹的 Transformer，而是将两种不同的序列建模技术——线性注意力（Linear Attention/DeltaNet）和标准多头注意力（Standard Attention）混合在一起。

以下是每个技术模块的详细解读：

Number of Parameters: 35B in total and 3B activated
- 总参数量 (35B)：模型拥有 350 亿个参数。
- 激活参数量 (3B)：在推理过程中，每次只使用其中的 30 亿个参数。
- 技术含义：这是MoE (Mixture-of-Experts，混合专家模型)的典型特征。通过稀疏激活，模型在保持大模型性能（35B 级别）的同时，获得了小模型（3B 级别）的推理速度和低延迟。

10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- 总数 40 层：模型共有 40 层 Transformer 块。
- 分组结构：这 40 层被分成了 10 个大的 Block（组）。
- 组内结构：每个 Block 包含 4 层：
  - 3 层 Gated DeltaNet + MoE：负责高效处理序列的主要部分。
  - 1 层 Gated Attention + MoE：负责在关键位置进行高精度的全局注意力计算。
- 设计意图：这是一种混合注意力机制。DeltaNet 计算速度快但精度略低于标准 Attention。通过在每 4 层中插入 1 层标准 Attention，模型能在保持高速度的同时，捕捉长距离依赖和复杂关系。

技术背景：DeltaNet 是 State Space Models (SSM) 或线性注意力的一种变体，旨在替代标准的O(N2)O(N^2)O(N2)注意力机制，实现O(N)O(N)O(N)的计算复杂度。
Number of Linear Attention Heads: 32 for V and 16 for QK
- 这是线性注意力的特定实现方式（可能是基于 SSM 或 RWKV 类的架构）。它使用更少的头数来处理状态更新。
Head Dimension: 128
- 每个注意力头的维度是 128。
作用：负责快速扫描文本序列，捕捉局部和中等距离的信息，速度极快。

技术背景：这就是标准的 Transformer 多头注意力机制，但在 Qwen 的混合架构中，它被“门控”或稀疏使用。
Number of Attention Heads: 16 for Q and 2 for KV
- GQA (Grouped-Query Attention)：查询头数 (Q) 是 16，键/值头数 (KV) 是 2。这意味着每 8 个 Q 头共享一个 KV 头。这极大地减少了 KV Cache 的内存占用和推理带宽压力，同时保留了多查询头的表达能力。
Head Dimension: 256
- 标准注意力的头维度较大，以便捕捉更精细的特征。
Rotary Position Embedding Dimension: 64
- RoPE (旋转位置编码)：用于编码 token 的位置信息。这里明确指出用于注意力机制的位置编码维度是 64。
作用：在混合架构的关键节点，提供高精度的全局上下文理解，解决 DeltaNet 可能丢失长距离依赖的问题。

Number of Experts: 256
- 每层有 256 个独立的“专家”网络（通常是 FFN）。
Number of Activated Experts: 8 Routed + 1 Shared
- 8 Routed (路由专家)：对于每个输入 token，路由器（Router）会选择 8 个最相关的专家进行计算。
- 1 Shared (共享专家)：还有一个专家对所有 token 都是激活的。这有助于捕捉通用的、全局性的特征（如语法、常见语义），避免专家稀疏导致的信息损失。
- 激活总数：8 + 1 = 9 个专家被激活。结合专家内部参数，构成了总共 3B 的激活参数。
Expert Intermediate Dimension: 512
- 每个专家网络内部隐藏层的维度。

Token Embedding: 248,320 (Padded)
- 词表大小约为 248k。这个巨大的词表通常是为了更好地处理多语言、代码符号和各种特殊字符，减少 OOV（未登录词）问题。
- Padded：表示词表大小可能为了硬件优化（如 GPU 内存对齐）进行了填充，实际有效词汇可能略少。
LM Output: 248,320 (Padded)
- 模型输出层映射回同样的词表大小。

trained with multi-steps
- 技术含义：这是一种训练技巧，类似于Lookahead Decoder或Speculative Decoding 的训练版。
- 在训练过程中，模型不仅预测下一个 token，还被要求预测下两个、下三个 token（多步预测）。
- 目的：
  1. 提高生成效率：模型在推理时可以一次输出多个 token。
  2. 增强连贯性：让模型更好地理解序列的整体结构，而不仅仅是单步依赖。

这是一个Hybrid Linear-Transformer MoE 模型，具体来说：

混合架构：它结合了SSM/Linear Attention (DeltaNet)的高效性和Standard Attention的精度。
MoE 稀疏激活：通过 256 选 9 的方式，实现了 35B 参数仅消耗 3B 算力。
长上下文优化：DeltaNet 天然支持长上下文且内存占用低，配合少量的标准 Attention，使其在处理超长文本时比纯 Transformer 更稳定、更快。
多语言/代码优化：248k 的大词表支持更细粒度的语言建模。

性能预估：
这种架构通常旨在实现3B 级别的推理速度，但拥有接近 30B+ 密集模型的性能（如搜索结果显示其 SWE-bench 得分 73.4，远超同等大小的传统模型）。它是为了在消费级硬件（如笔记本）上运行高质量 AI 代理（Agent）而设计的。