当前位置: 首页 > news >正文

【Qwen3.6】关键技术:线性注意力(Linear Attention/DeltaNet)和标准多头注意力(Standard Attention)混合

官方材料

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/blob/main/README.md

分析

一款非常前沿的混合架构大模型,Qwen3.6-35B-A3B下一代 Qwen 模型。

这个模型的核心创新在于它不是纯粹的 Transformer,而是将两种不同的序列建模技术——线性注意力(Linear Attention/DeltaNet)和标准多头注意力(Standard Attention)混合在一起。

以下是每个技术模块的详细解读:

1. 核心架构概念:混合专家 (MoE) 与稀疏激活

  • Number of Parameters: 35B in total and 3B activated
    • 总参数量 (35B):模型拥有 350 亿个参数。
    • 激活参数量 (3B):在推理过程中,每次只使用其中的 30 亿个参数。
    • 技术含义:这是MoE (Mixture-of-Experts,混合专家模型)的典型特征。通过稀疏激活,模型在保持大模型性能(35B 级别)的同时,获得了小模型(3B 级别)的推理速度和低延迟。

2. 隐藏层布局 (Hidden Layout)

  • 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
    • 总数 40 层:模型共有 40 层 Transformer 块。
    • 分组结构:这 40 层被分成了 10 个大的 Block(组)。
    • 组内结构:每个 Block 包含 4 层:
      • 3 层 Gated DeltaNet + MoE:负责高效处理序列的主要部分。
      • 1 层 Gated Attention + MoE:负责在关键位置进行高精度的全局注意力计算。
    • 设计意图:这是一种混合注意力机制。DeltaNet 计算速度快但精度略低于标准 Attention。通过在每 4 层中插入 1 层标准 Attention,模型能在保持高速度的同时,捕捉长距离依赖和复杂关系。

3. Gated DeltaNet (门控线性注意力)

  • 技术背景:DeltaNet 是 State Space Models (SSM) 或线性注意力的一种变体,旨在替代标准的O(N2)O(N^2)O(N2)注意力机制,实现O(N)O(N)O(N)的计算复杂度。
  • Number of Linear Attention Heads: 32 for V and 16 for QK
    • 这是线性注意力的特定实现方式(可能是基于 SSM 或 RWKV 类的架构)。它使用更少的头数来处理状态更新。
  • Head Dimension: 128
    • 每个注意力头的维度是 128。
  • 作用:负责快速扫描文本序列,捕捉局部和中等距离的信息,速度极快。

4. Gated Attention (门控标准注意力)

  • 技术背景:这就是标准的 Transformer 多头注意力机制,但在 Qwen 的混合架构中,它被“门控”或稀疏使用。
  • Number of Attention Heads: 16 for Q and 2 for KV
    • GQA (Grouped-Query Attention):查询头数 (Q) 是 16,键/值头数 (KV) 是 2。这意味着每 8 个 Q 头共享一个 KV 头。这极大地减少了 KV Cache 的内存占用和推理带宽压力,同时保留了多查询头的表达能力。
  • Head Dimension: 256
    • 标准注意力的头维度较大,以便捕捉更精细的特征。
  • Rotary Position Embedding Dimension: 64
    • RoPE (旋转位置编码):用于编码 token 的位置信息。这里明确指出用于注意力机制的位置编码维度是 64。
  • 作用:在混合架构的关键节点,提供高精度的全局上下文理解,解决 DeltaNet 可能丢失长距离依赖的问题。

5. Mixture Of Experts (MoE) 配置

  • Number of Experts: 256
    • 每层有 256 个独立的“专家”网络(通常是 FFN)。
  • Number of Activated Experts: 8 Routed + 1 Shared
    • 8 Routed (路由专家):对于每个输入 token,路由器(Router)会选择 8 个最相关的专家进行计算。
    • 1 Shared (共享专家):还有一个专家对所有 token 都是激活的。这有助于捕捉通用的、全局性的特征(如语法、常见语义),避免专家稀疏导致的信息损失。
    • 激活总数:8 + 1 = 9 个专家被激活。结合专家内部参数,构成了总共 3B 的激活参数。
  • Expert Intermediate Dimension: 512
    • 每个专家网络内部隐藏层的维度。

6. Token & Output

  • Token Embedding: 248,320 (Padded)
    • 词表大小约为 248k。这个巨大的词表通常是为了更好地处理多语言、代码符号和各种特殊字符,减少 OOV(未登录词)问题。
    • Padded:表示词表大小可能为了硬件优化(如 GPU 内存对齐)进行了填充,实际有效词汇可能略少。
  • LM Output: 248,320 (Padded)
    • 模型输出层映射回同样的词表大小。

7. MTP (Multi-Step Prediction / Multi-Token Prediction)

  • trained with multi-steps
    • 技术含义:这是一种训练技巧,类似于Lookahead DecoderSpeculative Decoding 的训练版
    • 在训练过程中,模型不仅预测下一个 token,还被要求预测下两个、下三个 token(多步预测)。
    • 目的
      1. 提高生成效率:模型在推理时可以一次输出多个 token。
      2. 增强连贯性:让模型更好地理解序列的整体结构,而不仅仅是单步依赖。

总结:这是什么类型的模型?

这是一个Hybrid Linear-Transformer MoE 模型,具体来说:

  1. 混合架构:它结合了SSM/Linear Attention (DeltaNet)的高效性和Standard Attention的精度。
  2. MoE 稀疏激活:通过 256 选 9 的方式,实现了 35B 参数仅消耗 3B 算力。
  3. 长上下文优化:DeltaNet 天然支持长上下文且内存占用低,配合少量的标准 Attention,使其在处理超长文本时比纯 Transformer 更稳定、更快。
  4. 多语言/代码优化:248k 的大词表支持更细粒度的语言建模。

性能预估
这种架构通常旨在实现3B 级别的推理速度,但拥有接近 30B+ 密集模型的性能(如搜索结果显示其 SWE-bench 得分 73.4,远超同等大小的传统模型)。它是为了在消费级硬件(如笔记本)上运行高质量 AI 代理(Agent)而设计的。

http://www.jsqmd.com/news/886717/

相关文章:

  • 2024年网盘下载终极免费解决方案:八大平台直链解析技术深度解析
  • Windows终极PDF处理工具:3步免费安装Poppler完整指南
  • 如何处理AI生成代码中的错误
  • 5分钟搭建原神私服:KCN-GenshinServer终极图形化解决方案
  • DeepSeek幻觉问题深度复盘(2023–2024真实故障库首发):从token级偏差到语义坍塌的全链路溯源
  • Owl-Alpha 新手快速上手指南
  • LSTM 算法的完整计算过程
  • MySQL GROUP BY 原理与优化
  • 基于双T振荡器的正弦波LED调光电路设计与实践
  • Linux系统Vim编辑器
  • 你的企业还在用“人海战术”处理发票和报表?2026智能体进化论
  • 别再死磕理论了!用Python手搓一个蒙特卡洛强化学习小游戏(附完整代码)
  • pan-baidu-download:百度网盘多线程下载加速器架构解析与性能优化指南
  • 【绝密PEST压力测试报告】:Claude 3.5在金融/医疗/政务三大敏感领域的17项穿透式评估结果(仅剩最后87份)
  • 边缘AI落地总失败?DeepSeek架构的4层容错机制,92%故障在毫秒级自愈
  • DeepSeek多卡训练通信开销超62%?紧急发布:NCCL拓扑感知AllReduce重排+梯度压缩阈值动态调优指南
  • Neon Glowing效果失效全解析,深度解读--v 6.2下--style raw与--no ambient_light的冲突机制及绕过方案
  • 面试必问:Temperature=0为何仍不确定?真相揭秘
  • 博弈论导向的车辆队列运动协同分层控制算法【附算法】
  • 幽灵请求与内存泄漏:一次全栈高并发下的性能惊魂复盘
  • 【2026收藏版】小白程序员必学的20个核心AI大模型基础概念(通俗易懂无废话)
  • Hugging Face 中tokenizer.json 和vocab.json 有区别?
  • 冰雪重制版手游官网下载:冰雪重制版最新官方下载渠道
  • 如何为Nintendo Switch安装游戏?Awoo Installer的3种安装方式全解析
  • 【Lovable电商网站搭建黄金标准】:基于137个真实项目数据验证的6项LCP/CLS/INP硬性阈值
  • 2026年数字化转型真相:为何空有大模型却带不动老系统?
  • 三维视图查看器项目(QT/C++)
  • Python中构造函数init与类的实例化
  • 收藏2026版|后端行业遇冷已成定局?程序员该扎根Java还是全力冲刺大模型
  • vectorizer图像矢量化工具:3步实现PNG/JPG到SVG的智能转换