当前位置: 首页 > news >正文

CANN8.5-ops-transformer更新了什么昇腾NPU算子

CANN 8.5 在 2024 Q4 发布,ops-transformer 仓库跟进了三个重要更新:FlashAttention V2 的反向传播融合、MC2 通算融合的多卡拓扑适配、以及新增的 GroupedAttention 算子。如果你已经用 CANN 8.0 在跑大模型推理,这篇帮你判断要不要升级。

FlashAttention V2:反向传播终于融合了

CANN 8.0 的 FlashAttention 只融合了前向传播。训练场景下,反向传播还是要拆成三个独立 kernel(dQ、dK、dV),中间结果落显存。CANN 8.5 把反向传播也融合进去了——一次 kernel 完成 dQ/dK/dV 的计算。

训练场景的收益:

配置训练吞吐 (tokens/s/p)显存占用
CANN 8.0 FlashAttention V11,82056 GB
CANN 8.5 FlashAttention V22,41044 GB

训练吞吐提升 32%,显存省了 21%。显存省下来意味着可以开更大的 batch 或更长的序列。

前向推理不受影响——如果你只做推理,这个更新对你没用,不用特意升级。

MC2 通算融合:多卡拓扑适配

CANN 8.0 的 MC2 只支持同一台服务器内的卡间通信。8 卡的 Atlas 800I A2 没问题,但如果你要用两台服务器做 16 卡的 MoE 训练,跨机 All-to-All 通信走的是 RoCE,MC2 没法把它和计算重叠。

CANN 8.5 加了 RoCE 通算融合支持。MC2 可以同时管理 HCCL 的卡间通信和 RoCE 的跨机通信,让两者都跟计算流水线重叠。

实测数据,Mixtral 8x7B 的 16 卡训练:

配置通信占比吞吐 (tokens/s/p)
CANN 8.0(跨机不通算融合)42%680
CANN 8.5(跨机通算融合)23%1,050

通信占比从 42% 降到 23%,跨机场景的 MC2 终于能用了。

新增:GroupedAttention 算子

Grouped-Query Attention(GQA)在 Llama2、Mistral 等模型里广泛使用。CANN 8.0 需要把 GQA 展开 MHA 来跑,CANN 8.5 新增了原生 GQA 支持:

importtorch_npu# GQA: num_q_heads=32, num_kv_heads=8q=torch.randn(1,32,4096,128,device="npu",dtype=torch.float16)k=torch.randn(1,8,4096,128,device="npu",dtype=torch.float16)v=torch.randn(1,8,4096,128,device="npu",dtype=torch.float16)# CANN 8.5 直接支持 KV heads < Q headsout=torch_npu.npu.flash_attention(q,k,v)

CANN 8.0 要手动把 K/V repeat 到 32 个 head,显存和计算都浪费。原生 GQA 省掉了 repeat 操作,显存占用降低 75%,延迟降 15-20%。

升级建议

场景是否建议升级到 8.5
只做推理(单机)不急,8.0 够用
推理 + GQA 模型建议升级,原生 GQA 收益大
训练(单机)建议升级,FlashAttention V2 反向融合省显存
训练(多机 MoE)必须升级,跨机 MC2 是刚需

升级方式:

# 更新 CANN toolkit./Ascend-cann-toolkit_8.5.run--install# 重新编译 ops-transformercdops-transformer&&gitpull&&bashbuild.sh# 更新 torch_npupipinstalltorch_npu==2.3.0# CANN 8.5 对应版本

兼容性注意

CANN 8.5 的 FlashAttention V2 API 跟 8.0 的 V1 有个不兼容变更:npu.flash_attentionscale参数从位置参数改成了关键字参数。如果你之前的代码是flash_attention(q, k, v, 1.0/math.sqrt(dim)),需要改成flash_attention(q, k, v, scale=1.0/math.sqrt(dim))。不改的话会报参数类型错误。


如果你的 MoE 训练要上多机,CANN 8.5 的跨机 MC2 是硬需求,不升级就是浪费卡。单机推理用户可以观望,等下一个大版本再看。仓库在这里:

https://atomgit.com/cann/ops-transformer

http://www.jsqmd.com/news/870026/

相关文章:

  • NVIDIA Profile Inspector完全指南:解锁显卡隐藏性能,游戏体验提升50%
  • 土区的教程
  • 抖音批量下载神器:免费开源工具解决你的视频保存难题
  • 2026 深圳品牌设计公司推荐:六个核心维度评估行业标杆! - 2026品牌推荐官
  • 2026年上海离婚财产律所排名,申沪律师事务胜诉率高 - 工业品牌热点
  • 魔兽争霸III优化工具终极指南:5分钟解决画面拉伸与卡顿问题
  • 魔兽争霸III终极优化指南:7大核心功能让经典游戏重获新生
  • NVIDIA Profile Inspector终极指南:解锁显卡隐藏性能,游戏优化一键搞定
  • Maya glTF插件完整教程:从安装到Web 3D模型转换的终极指南
  • 官渡区秋辰叉车租赁:五华专业的叉车租赁公司找哪家 - LYL仔仔
  • 正规的谷歌推广怎么选?费用与效果分析 - 工业品牌热点
  • CANN-ops-transformer和ATB-昇腾NPU上算子和加速库怎么配合
  • 如何快速掌握UABEA:新手必备的Unity资源编辑完整指南
  • Shell进程替换,自定义Shell解释器——字符串库函数灵活操作!
  • 2026北京奢侈品回收全攻略:六家专业平台一站式变现指南 - 薛定谔的梨花猫
  • 免费开源神器:SMUDebugTool让你轻松掌控AMD Ryzen处理器的秘密
  • 海强金诺运营模式好不好?哪个口碑好? - 工业品牌热点
  • Mac NTFS读写终极指南:Free NTFS for Mac完整解决方案
  • 2026昆明装修公司实测推荐:口碑与实力兼具,装修避坑优选榜单 - GEO排行榜
  • Hermes Agent对接Taotoken自定义Provider的配置要点详解
  • 2026定西市黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • 北京物业保洁加停车管理公司推荐与性价比解析 - 工业品牌热点
  • 2026 成都名牌包包回收 TOP 榜单:合扬领衔,五大正规机构口碑爆棚 - 李宏哲1
  • Office RibbonX Editor:免费开源Office界面定制终极解决方案
  • 哈尔滨汽车音响改装|奥迪Q5升级法国劲浪全套音响,音质直接越级提升!哈尔滨奥迪专用音响改装方案 适配奥迪A4L、奥迪A6L、奥迪A8L、奥迪Q7、奥迪Q5 - 木火炎
  • CANN-ops-transformer-给昇腾NPU贡献一个大模型算子要走几步
  • Beyond Compare 5授权密钥生成器:一键激活与完整技术解析
  • 洗地车专业厂家推荐哪家比较靠谱? - 工业推荐榜
  • 2026东安县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • CANN-ops-transformer-从输入到输出昇腾NPU跑了多少个融合算子