当前位置: 首页 > news >正文

SHMEM:CANN多设备高性能通信库正式开源

SHMEM:CANN多设备高性能通信库正式开源

概述

SHMEM 是CANN推出的面向模型开发者和算子开发者的高性能多设备通信库,提供跨卡内存访问、通信-计算融合等核心能力,降低分布式场景下设备间数据同步与通信融合算子的开发门槛。


背景:大模型时代,通信已成为算力的"第二战场"

随着大模型规模的持续扩张,单卡算力早已无法满足训练与推理的需求。多卡分布式成为主流配置,但随之而来的通信瓶颈问题愈发凸显——数据在多张 NPU 之间频繁搬运、同步、聚合,而每一次跨卡通信的延迟都直接侵蚀着计算效率的上限。

在这一背景下,"计算-通信融合"逐渐从优化选项变成必选项。以 Matmul-AllReduce 融合、AllGather-Matmul 流水线为代表的融合算子,正在成为顶尖推理框架和训练框架提升效率的核心手段。然而,构建此类融合算子通常需要深入理解底层硬件通信机制,当前CANN缺乏一套系统化、对开发者友好的多设备通信编程接口。

SHMEM 正是为解决这一问题而诞生的。


核心设计:Host-Device 双侧协同架构

SHMEM 采用Host 侧与 Device 侧协同的架构设计:

  • Host 侧:负责进程初始化、对称内存堆管理、通信域(Team)创建、以及多进程 Bootstrap 协调,确保多卡环境下资源的一致性配置。
  • Device 侧:在 AscendC Kernel 内部,直接调用 RMA(Remote Memory Access)、AMO(原子内存操作)、集合通信 等高性能接口,实现 Kernel 内部的跨卡数据搬运与同步。

这种分层设计将控制面与数据面彻底分离,使 Kernel 开发者能够专注于算法逻辑,而无需关心底层连接建立与资源管理的复杂细节。

关键能力一览

对称内存模型

所有 Rank 的共享内存地址空间严格对称分布,任意 Rank 可通过偏移直接访问其他 Rank 的内存,彻底消除跨卡地址转换的心智负担:

// 分配对称内存,所有 Rank 同步调用,地址空间自动对齐void*ptr=aclshmem_malloc(size);// 在 Kernel 中直接 Put 数据到远端 Rankaclshmem_put(dest_ptr,src_ptr,nelems,pe);

灵活的通信域(Team)管理

支持将全局通信域(TEAM_WORLD)按需拆分为子域,精确控制集合通信的参与范围,天然适配张量并行、流水线并行等大模型分布式策略:

// 按步长切分通信域,适配 Tensor Parallel 场景aclshmem_team_ttp_team;aclshmem_team_split_strided(ACLSHMEM_TEAM_WORLD,start,stride,size,&tp_team);

Device 侧原子操作(AMO)

提供 Fetch-and-Add、Compare-and-Swap 等原子操作,支持 Kernel 内部的无锁计数与细粒度同步,是构建高性能通信融合算子的基础原语。

集合通信直接下沉至 Kernel

AllReduce、AllGather、Broadcast 等集合通信操作可直接在 AscendC Kernel 内部调用,与矩阵计算流水无缝衔接,消除传统"计算完成 → Host 下发通信 → 等待完成"模式带来的调度开销。


典型场景:计算-通信融合算子

SHMEM 最具代表性的应用场景是计算与通信的深度融合。以大模型推理中常见的Matmul-AllReduceAllGather-Matmul为例:

传统方式下,计算与通信串行执行,AllReduce 的通信延迟完全暴露在关键路径上。而借助 SHMEM,开发者可以在单个 Kernel 内同时驱动矩阵计算与通信流水:

  • 计算单元持续执行 Matmul 分块
  • 通信引擎在计算执行期间完成远端数据搬运
  • 双流水并行,通信延迟被计算时间完全掩盖

在 Atlas 800I/800T A2/A3 系列硬件上,融合算子能够有效降低通信开销,优化计算流水线效率。

直播时间2026年2月28日16:00 - 17:00
B站/微信视频号搜索【昇腾CANN】观看直播,参与直播互动可获CANN周边小礼品。

http://www.jsqmd.com/news/418123/

相关文章:

  • 260205
  • CiteLLM An Agentic Platform for Trustworthy Scientific Reference Discovery
  • LeetCode 393 UTF-8 编码验证
  • 鸿蒙应用如何高效管理后台任务,避免 CPU 资源浪费
  • D.二分查找-二分答案-其他——374. 猜数字大小
  • 大数据架构数据并行处理:任务拆分与负载均衡
  • 大数据领域中内存计算的网络传输优化
  • 有哪些靠谱的开题报告写作网站推荐
  • 好用的免费ai论文写作生成器(在线ai论文写作生成器)
  • 推荐几款知名的ai论文写作软件品牌
  • Netty中的ByteBuf
  • 记事本
  • 2/26
  • 2/27
  • 朱梁真理函数定理:世界观、人生观、价值观
  • AT_arc207_a [ARC207A] Affinity for Artifacts
  • Abaqus中接触分析(显示求解 Explicit)
  • 用C语言生成H5文件步骤
  • 题解:P9531 [JOIST 2022] 复兴计划 / Reconstruction Project
  • 贾子周期四阶段律理论解析 |Analysis of Kucius Four-Stage Cycle Law
  • DeepSeek总结PostgreSQL存储体系的核心单元——8KB大小的数据页
  • SQL Server删除正在恢复数据库方法
  • 2026年中医就诊能用医保吗?使用条件及报销要点 - 品牌排行榜
  • 2026年操作简单使用方便且安全的染发膏推荐 - 品牌排行榜
  • CLI Test Post Angular - 智造出海
  • 2026年固生堂工作怎么样?内部视角解析职业发展与环境 - 品牌排行榜
  • Bitwarden+cpolar 让密码管理随时随地更安心
  • 2026广东最新沉香手串供应链优选指南 十大品质生产厂家参考 - 十大品牌榜
  • 2026执业药师备考指南:基础薄弱考生专属的三大靠谱网课推荐! - 医考机构品牌测评专家
  • 2026 执业医师题库哪个真题多?高口碑真题库真心推荐,速收藏! - 医考机构品牌测评专家