当前位置: 首页 > news >正文

Deepseek MLA CP通信AlltoAll

长文本CP 切分,共2次All2All

第一次AlltoAll,输入按Seq维度汇总,按Head维度切。(切输入,非TP维度的切参数)

[s/c, b, n/t, h] -AlltoAll-> [s, b, n/(t*c), h]

第二次AlltoAll,恢复按Seq维度切,按Head维度汇总。

[s, b, n/(t*c), h] -AlltoAll-> [s/c, b, n/t, h]

其中t 为TP, c 为CP, n = nHead数

举例: CP = 2, TP =4 , H = 8192, nHead = 16

阶段形状说明
输入[s/2, b, 8192]CP 切分后,每 rank 持有半个序列
MLA 解压后 Q/K/V[s/2, b, 16, 192]16 heads/rank(64 heads ÷ TP=4),经过了TP的降维
A2A 后(scatter head,gather seq)[s, b, 8, 192]全序列,head 减半
Flash Attention 输出[s, b, 8, 128]全序列本地计算
A2A 后(scatter seq,gather head)[s/2, b, 16, 128]还原序列分片
o_proj 后[s/2, b, 8192]还原 hidden_states, 经过TP升维
compressed_kv [s, b, 576] ← kv_a_proj 压缩后的 latent,是 _preprocess 的输入 │ ├── split → ct_kv [s, b, 512] ← kv_lora_rank 部分 │ k_pe [s, b, 64] ← rope 部分 │ ├── kv_a_layernorm(ct_kv) │ └── kv_b_proj (Up-projection, 解压) [s, b, 512] → [s, b, 16heads, 128+128] k_nope [s, b, 16, 128] v [s, b, 16, 128] q_b_input (经过 q_b_proj 解压) q_nope [s, b, 16, 128] q_pe [s, b, 16, 64] 最终拼接: query_states [s, b, 16, 192] = q_nope + q_pe key_states [s, b, 16, 192] = k_nope + k_pe value_states [s, b, 16, 128]

MLA attention:

DeepseekV2Attention └── self.core_attention_flash = FlashAttention(...) # 基础 flash attn ↓ (当 CP + alltoall 时自动包装) └── self.core_attention_flash = DistributedAttention(FlashAttention, cp_group)
http://www.jsqmd.com/news/889295/

相关文章:

  • 30分钟用AI快速理解陌生代码库:结构化侦察与交互式探索
  • 英雄联盟录像编辑神器:5分钟掌握免费专业工具League Director
  • 【RAG】【retrievers14】路由检索器
  • 淮安黄金回收行情深度解析:避坑防套路 + 本地三大品牌专业测评,卖金不被吃亏 - 速递信息
  • STM32F103 学习笔记-21-串口通信(第4节)-串口发送和接收代码讲解(上)
  • 实验室立式砂磨机怎么选?从实验室到量产,细度 / 材质 / 稳定性关键指南 - GEO排行榜
  • Agent身份与权限系统​命令行交互入口:分层架构 + 多 Agent 协作模式
  • 2026最新五家诸城市黄金回收白银回收铂金回收彩金回收店铺靠谱回收门店推荐TOP5排行榜及联系方式推荐 - 前途无量YY
  • 高斯泼溅在Unity中的点云渲染原理与实战
  • MetricFlow技术架构范式:构建声明式指标定义框架的实施指南
  • 解密哔哩下载姬:构建专业级B站视频下载框架的深度剖析
  • 你的密码正裸奔在 SharedPreferences 里——敏感数据存储与防泄漏全面突围
  • FakeLocation终极指南:三分钟掌握Android应用级虚拟定位技术
  • Python列表推导式实战:精准过滤M3U8广告链接并高效下载视频
  • Burp Suite Intruder密码爆破实战:响应识别、负载控制与字典优化
  • 宁德高中怎么选?2026年宁德市优质高中前八名单出炉 - 速递信息
  • 2026年南京企业为何一定要做GEO优化? - 小艾信息发布
  • 2026年国内geo优化软件 TOP5实力全景深度解析 - 资讯焦点
  • 你的 return 神秘失踪了?——Python finally 块中的 return 覆盖陷阱完全揭秘
  • 2026年宁德市高中综合实力前八学校排名 - 速递信息
  • 行为面试五大高频难题拆解:从失败经历到职业规划的应答策略
  • ORBSLAM-Atlas:多地图融合如何提升SLAM的鲁棒性与精度
  • 3步搞定游戏成就备份:SteamAchievementManager数据安全终极指南
  • 2026小程序开发公司哪家好?十大专业定制服务商真实测评 - 速递信息
  • 2026年全国AI搜索代运营服务指南:5家GEO优化机构推荐 - 资讯焦点
  • 别再只用轮廓系数了!用Python的sklearn实战MI、NMI、AMI三大聚类评估指标
  • 应用层协议http
  • AI Agent在医疗诊断中的智能应用研究
  • 百度网盘下载提速秘籍:3个步骤解锁全速下载新体验
  • 吉林黄金回收怎么选?福正美免费上门透明报价 - 上门黄金回收