当前位置: 首页 > news >正文

CANN开源社区组织介绍

🔥DeepSeek V4专区🔥

【免费下载链接】community本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息项目地址: https://gitcode.com/cann/community

  • 🔥直播回看:DeepSeek-V4昇腾首发,基于CANN的训推优化实践
  • 🔥技术报告:NPU DeepSeek V4推理优化实践 | DeepSeek-V4昇腾训练支持
  • 🔥模型部署:推理|训练;权重下载:FLASH
  • 🔥V4 算子:Attention相关算子 | mHC相关算子 | PyPTO | Tilelang
  • 🔥参与技术讨论,专家在线答疑 | 有奖社区任务

开源项目

组件描述源码仓
算子库提供了丰富的深度优化、硬件亲和的高性能算子,为神经网络在昇腾硬件上加速计算提供基础。ops-nn
ops-math
ops-transformer
ops-cv
通信库基于昇腾硬件的高性能通信库,提供单机多卡及多机多卡间的数据并行、模型并行通信方案。hixl
shmem
hccl
hcomm
领域加速库针对特定领域或场景的算子和算法的结合。ascend-transformer-boost
sip
图引擎面向昇腾的图编译器和执行器,提供图优化、多流并行、内存复用和模型下沉等功能。ge
metadef
graph-autofusion
triton-inference-server-ge-backend
算子编程CANN针对算子开发场景推出的编程语言,最大化匹配用户开发习惯,提供算子模板库,支持算子极简编程。asc-devkit
pyasc
pypto
pto-isa
atvoss
catlass
运行时提供了高效的硬件资源管理、媒体数据预处理、单算子加载执行、模型推理等开发接口,供开发者轻松构建高性能人工智能应用。runtime
驱动提供了基础驱动、设备管理、资源管理及调度、通信能力等功能,使能昇腾芯片,充分发挥硬件能力,支撑CANN上层软件高效稳定运行。driver
工具提供CANN平台的各种工具,如算子调试调优工具、故障定位、模型压缩等。asc-tools
oam-tools
amct

关于社区

社区治理架构及章程

CANN 社区采用分层协作的治理模式,当前架构主要包括以下组织:

  • 技术指导委员会(TSC-Technical Steering Committee)
  • 项目管理委员会(PMC-Project Management Committee)
  • 特别兴趣小组(SIG-Special Interest Group)

更多社区治理内容,详见:社区治理章程

参与贡献

  • 基础贡献:包含参与社区会议、社区邮件讨论、提交 Issue 、处理 Issue 任务、提交PR等。
  • 进阶贡献:包含新建 SIG、成为核心贡献者、组织会议、新建仓库、引入开源软件、发布新版本或新仓库等。

快速体验

若您希望快速体验CANN算子的调用和开发过程,请访问如下文档获取简易教程。

  • 算子调用:介绍调用算子的基本步骤,快速搭建环境,实现算子编译执行。
  • 算子开发:介绍开发算子的基本流程,一键创建算子工程目录,实现Tiling、Kernel核心交付件。

🔥一站式开发平台:您也可在对应仓库中点击“CANNLab”,在一站式在线开发环境中限时免费体验昇腾算力。🔥

实践样例

⚓推理 | 🚈 训练 | 🔮 空间智能 | 🎮 具身智能 | 📱 鸿蒙推理

|热门实践 |描述 | |--|--| |NPU DeepSeek-V4推理优化实践 | DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (KV Cache Compress),减少Attention的计算和访存开销,可以大幅提升长序列的计算效率,降低推理的成本。本实践0 Day支持了DeepSeek-V4的模型推理部署,并适配支持Atlas-A3和950PR/DT多代际昇腾芯片。 | |DeepSeek-V4昇腾训练支持 | 本文介绍 DeepSeek-V4-Flash 模型基于 CANN 平台的训练优化实践。基于 TorchTitan-NPU 框架,采用纯 FSDP + 大 EP 极简并行策略实现内存最优;创新性地使能训练入图技术,凭借 Ascend C AutoFuse 能力,获得端到端 32% 的编译收益;针对稀疏注意力结构定制高效融合算子,充分释放芯片算力。 | |DeepSeek-V3.2-Exp模型支持推理部署 | 基于Transformers库,在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略,Decode阶段沿用大EP并行,同时整网设计新的NPU融合Kernel和多流并行优化,实现较高的吞吐推理性能。 | |DeepSeek-R1 RL训练优化实践 | 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO算法的高吞吐RL训练,并达到120TPS/卡的系统吞吐量。 | |HunyuanVideo模型推理优化实践 | 基于xDiT框架,在Atlas A2环境中采用了Ulysses序列并行和RingAttention序列并行测量,同时适配了TeaCache加速,实现了较优的推理性能。 | |VGGT模型推理优化实践 | 基于VGGT开源模型,完成其在Atlas A2上的推理适配,并提供其在相机位姿估计、点云三维重建、深度估计三个任务上的精度评测脚本。 | |Pi0模型推理优化实践 | 基于LeRobot库,在Atlas A2环境适配Pi0模型,通过使能融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延。 | |QQ音乐声伴分离鸿蒙推理优化实践 | 实现QQ音乐声伴分离业务模型中的BandNorm等算子在鸿蒙设备上的高性能推理部署。 |

社区活动

  • 社区会议日历:如果您对CANN社区的各类会议感兴趣,可访问会议日历。
  • 🔥CANN开源开放系列直播:大咖细剖开源政策和计划,maintainer全面解读热门开源项目。
  • 🔥昇腾AI算法挑战赛进阶赛:昇腾AI算法挑战赛旨在汇聚全球各领域的优秀开发者同台竞技。开放昇腾AI计算平台的全栈能力与API资源,鼓励开发者构建高效创新的AI模型,解决实际场景问题。
  • CANN训练营赢华为三折叠等大奖。
  • 昇腾AI创新大赛-算子挑战赛:昇腾AI创新大赛-算子挑战赛旨在培养一批精通Ascend C算子开发的开发者,鼓励开发者基于CANN的基础能力进行深度创新与实践。

联系我们

  • 社区邮件订阅:选择需要订阅的组织(TSC/PMC/SIG等),填写相关信息,进行邮件订阅(邮件推送内容包含:会议通知、会议纪要、内容讨论等),如果您对相关组织有诉求或者问题,也可以通过邮箱途径联系。

  • 昇腾CANN(社交媒体)

    |

    B站
    |
    微信公众号
    |
    知乎
    |
    CSDN
    | |--|--|--|--| |||||
  • cann@cann.team

相关链接

  • 昇腾社区
  • 鸿蒙社区

【免费下载链接】community本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息项目地址: https://gitcode.com/cann/community

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/786412/

相关文章:

  • 【学习篇】第18期 C++模板
  • 终极指南:5步掌握动物森友会存档编辑的艺术与科学
  • (课堂笔记)PL/SQL:异常处理、数据同步、日志
  • 通用人工智能系统(GPAIS)架构、挑战与可信治理实践
  • 百度用6%成本碾压硅谷?中国AI把性价比玩明白了
  • 八个程序员常用的接单平台推荐
  • CANN/ops-cv AICPU加法算子示例
  • 年轻人用 AI 完成情绪自救:从发疯吐槽到平行宇宙重养自己
  • 【OpenClaw从入门到精通】第77篇:Token经济学实战——从月耗1200到200元,AI数字员工成本优化全攻略(2026万字实战版)
  • 基于OpenClaw的小红书自动化运营插件auto-rednote实战指南
  • Discord音频桥接技术:实时语音流处理与下游应用集成指南
  • taotoken的api key管理与访问控制功能实际使用感受分享
  • 单细胞与空间转录组分析技能栈构建:从环境搭建到AI协作实战
  • 2026 年了,国产大模型和 GPT/Claude的差距还有多大?
  • ACL 2025 最佳论文解读:《Language Models Resist Alignment: Evidence From Data Compression》
  • RimSort终极指南:如何用开源工具彻底解决环世界MOD管理难题
  • 房子装修完多久可以入住?安全标准与通风时长全解析
  • 会议记录工具评测对比解析,AI识别整理技术的实际优势
  • 半导体光刻中SRAF与逆光刻技术的应用与优化
  • 第十章 供水管网水力模型的工程管理
  • MagiskBoot深度解析:Android启动镜像定制终极指南与实战技巧
  • LLMCompiler:大语言模型并行函数调用编译器原理与实践
  • 谷歌Gmail客户端升级:新增AI Inbox入口,‘Help me write’功能深度进化
  • 工厂设计模式(Factory Pattern):工厂方法与抽象工厂的实例演示
  • CANN盘古7B配置说明
  • 一键提取视频PPT:开源智能视频内容自动化提取的革命性工具
  • 平滑滚动技术:从原理到实现,打造丝滑交互体验
  • ARM64缓存维护指令DC CVAC详解与应用
  • 5G R18标准:AI/ML如何重塑空口优化与网络架构
  • 终极Blender插件:快速解决虚幻引擎PSK/PSA格式转换难题