当前位置: 首页 > news >正文

cann/hccl:通信算子重执行对整网性能说明

通信算子重执行对整网性能说明

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

开启HCCL通信算子重执行功能后,整网端到端性能的变化与模型的切分部署方式密切相关,本节详细讲述重执行功能与网络性能的关系。

定义“关键通信域”

关键通信域为:该通信域性能的变化将会带来整网端到端性能的较大的变化。意味着该通信域非常重要,是整网的性能瓶颈。

一般而言,整网有多个通信域,多个通信域中往往存在1个关键通信域,本节性能分析就围绕该“关键通信域”展开。

如下图所示:

上述profiling中实际发生通信的有4个通信域。分别是Group_777、Group_1289、Group_257以及Group_9。

Group_1289中执行的BatchSendRecv算子,是PipelineParallel引入的,一般而言是异步通信,与计算可以异步发生,而且时间占比不大,不是关键通信域。

Group_777和Group_9,算子执行操作较少,对全局的影响较小,也不是关键通信域。

由此能够判断出,Group_257就是“关键通信域”。如果该通信域性能劣化,则会直接影响整网端到端性能。

整网性能劣化与“关键通信域”的关系

  • 关注点1:关键通信域是否开了重执行。

    一些常见的部署方式,例如张量并行(TP:Tensor Parallelism)叠加数据并行(Data Parallelism:DP),其中TP是“关键通信域”,如果TP的范围在Server内(TP<=16),由于Server内不会开启通信算子重执行,所以不会影响端到端性能。

    而非关键通信域,对整网的性能影响很小。例如以下为实验室测试模型的数据:

    模型切分方式劣化比例说明
    Llama3-8B
    (运行在64die规模集群上)
    TP=16(关键通信域)
    DP=4
    0.03%仅非关键通信域DP开启重执行,对端到端性能影响较小。
    GPT4_dropLess
    (运行在128die规模集群)
    TP=8(关键通信域)
    PP=1
    EP=1
    CP=16
    0.99%仅非关键通信域CP(Context Parallelism,上下文并行)开启重执行,对端到端性能影响较小。
    Qwen3-moe-235B(运行在128die规模集群)TP=8(关键通信域)
    PP=1
    EP=64
    -0.1%仅非关键通信域EP(Expert Parallelism,专家并行)开启重执行,对端到端性能影响较小。
  • 关注点2:关键通信域的通信展开和计算能否重叠。

    如果关键通信域开了重执行,那么该通信域的性能一定会有劣化;但是该劣化是否会引发整网劣化,还需要看该关键通信域的AI CPU展开是否能够与计算重叠(overlap)。

    单个通信域开了重执行后,最大的差异是由异步展开模式变为同步展开模式,如下图,即从上面的方式变为下面的方式。

    通信展开时间能否被计算掩盖,是决定该通信域是否对端到端性能有影响的关键因素,具体需要结合计算算子的情况(模型结构)进行分析。

    如下图所示,计算算子耗时仅50us,由于AI_CPU展开模式带来的前后通信算子之间的空隙有150us,那么“150-50=100us”是重执行引入的开销。这个开销又是在“关键通信域”上,就会引发端到端劣化。

    但是,这个劣化到底是多少,需要看关键通信域的算子在整网中的占比(与模型结构及部署方式强相关),以及这个维度的展开是否能与计算overlap。

    例如,同样是EP64切分,不同的模型就有不同的劣化效果。

    模型切分方式劣化比例说明
    DeepSeekV3(运行在64die规模集群)EP=640.06%关键通信域EP开重执行,但该模型计算时间长,重执行开销能够被计算掩盖,整网端到端性能劣化不严重。
    qwen3-moe-30b
    (运行在64die规模集群)
    EP=643%关键通信域EP开重执行,重执行开销不能被计算掩盖,整网端到端有性能劣化。
    说明:关键通信域EP在跨超节点场景下非亲和,开启重执行整网性能会进一步劣化。

    由此可见,模型端到端影响因素与模型结构强相关,重执行对整网性能的影响需要根据实际情况进行评估。

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/788830/

相关文章:

  • 视频播放效率革命:如何用Video Speed Controller每天节省2小时
  • 【ETL实战】StreamSets零代码构建实时数据管道
  • 【LlamaIndex 】源码剖析:RAG-First 的设计哲学——为什么“数据即基础设施“才是 Agent 时代的正解
  • QMCDecode全攻略:3步解锁QQ音乐加密音频的macOS解决方案
  • 虚拟调试省钱大法:用CODESYS SoftMotion Win V3和LabVIEW搭建你的第一个OPC UA通讯测试台
  • 用V-REP的Force Sensor做个简易电子秤:从仿真到数据可视化全流程
  • CANN图像双线性上采样算子
  • 终极指南:MacBook上高效配置ComfyUI-Manager的5大关键步骤
  • 物联网设备中TCP/IP协议栈的优化与实践
  • Dreamweaver CS6表单制作保姆级教程:从登录框到注册页,一次搞定
  • 告别盲目缩放!手把手教你用Python实现地震波(时程分析)的智能匹配与调整
  • Keil C51编程避坑:用指针和_at_关键字精准操作RAM/ROM地址(附完整代码)
  • C# WPF 实现摄像头视频流处理与实时标记
  • Spec Mint Core:将AI编程从瞬时计划升级为持久化规格驱动开发
  • 通过Taotoken CLI工具一键配置多开发环境下的模型API
  • SAP财务顾问必看:蓝冲、红冲与反记账的实战配置详解(附完整IMG路径)
  • 让你的山东一卡通轻松变现 - 团团收购物卡回收
  • 3步掌握PUBG精准射击:罗技鼠标宏终极配置指南
  • CANN/ops-cv双线性抗锯齿上采样算子
  • 如何用AI技术无损去除视频硬字幕?Video Subtitle Remover完全指南
  • 从OOM Killer到代码重构:一次由Memory cgroup引发的全链路Java应用性能优化实战
  • 在Nodejs服务中集成Taotoken实现稳定且低成本的大模型调用
  • AI赋能非洲公共卫生:机器学习在疾病监测与预测中的实战应用
  • 2026武汉婚纱摄影口碑排名TOP10:新人必看无隐性消费榜单+避坑指南 - 江湖评测
  • STC8 16通道模拟采集 + 4路串口 + 8路PWM 程序
  • 从.deb到.rpm:一文搞懂Linux两大派系软件包的制作差异与互转思路
  • LinkSwift:智能自动化网盘直链下载的终极指南
  • 流体力学中的可解释AI:SHAP方法原理、算法与应用全解析
  • 2026武汉婚纱摄影深度测评报告 - charlieruizvin
  • LizzieYzy:高性能分布式围棋AI分析平台的技术架构与实战应用