当前位置: 首页 > news >正文

CANN/ge LLM数据分布交换块API

# swap_blocks

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 推理系列产品:支持
  • Atlas A2 训练系列产品:不支持

函数功能

对cpu_cache和npu_cache进行换入换出。

对于swap out功能,该接口启用了4个线程执行并行任务;对于swap in功能,该接口启用了1个d2d线程。为了性能稳定,建议进行进程绑核。

swap in功能分为H2D和D2D两个阶段,为了保障性能,该接口申请了4个block大小的buffer用作流水拷贝,所以建议预留出对应的Device内存,防止出现OOM。

函数原型

swap_blocks(src: KvCache, dst: KvCache, src_to_dst: Dict[int, int])

参数说明

参数名称数据类型取值说明
srcKvCache源Cache。
dstKvCache目标Cache。
src_to_dstDict[int, int]dict里面内容代表(原始block index,目标block index)

调用示例

from llm_datadist import KvCache ... npu_cache = kv_cache_manager.allocate_blocks_cache(npu_cache_desc, npu_cache_key) cpu_cache = KvCache.create_cpu_cache(cpu_cache_desc, cpu_addrs) # cpu_addrs来自创建的cpu tensors # swap in kv_cache_manager.swap_blocks(cpu_cache, npu_cache, {1:2, 3:4}) # swap out kv_cache_manager.swap_blocks(npu_cache, cpu_cache, {1:2, 3:4})

返回值

正常情况下无返回值。

传入数据类型错误,源Cache和目标Cache不匹配情况下会抛出TypeError或ValueError异常。

传入参数为None,会抛出AttributeError异常。

约束说明

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1073084/

相关文章:

  • CocoIndex入门指南:15分钟打造你的智能数据索引系统
  • ModSecurity WAF深度优化指南:生产环境性能调优实战
  • Leveldown C++原生绑定实现原理:从Node.js到LevelDB的桥梁
  • PDFGen:面向嵌入式与资源受限环境的C语言PDF生成架构
  • CANN/catlass稀疏矩阵乘法示例
  • sccache编译缓存终极指南:如何用云端缓存加速你的构建速度
  • Atomic Docs分类与组织系统:如何高效管理数百个前端组件
  • SpacetimeGaussians实战案例:烹饪、火焰、生日场景的完整实现流程
  • Ngx-restangular 核心功能解析:all、one、several 方法深度指南
  • UI.Vision RPA:免费开源自动化工具的完整指南
  • 终极指南:3步掌握Nextcloud外部存储功能
  • HiApp用户体验设计:打造流畅移动应用的7个界面与交互技巧
  • BlenderMCP:基于MCP协议的AI驱动3D建模解决方案
  • 5步终极方案:将闲置电视盒子改造为专业Armbian服务器
  • Contra.js在浏览器端的最佳实践:提升前端性能的7种方法
  • 30分钟从零开始:用LSPosed框架开发你的第一个Android钩子模块
  • Node.js环境下使用pouchdb-authentication:服务端用户认证实现指南
  • 技术架构解析:Awesome Claude Skills项目的模块化技能集成平台实现
  • 超强libphonenumber实战指南:一站式解决国际电话号码解析难题
  • Atomic Docs自定义主题与样式:打造个性化样式指南界面
  • 在macOS上实现Intel RealSense深度相机高效配置的完整技术指南
  • BabelDOC:专业PDF文档翻译的终极解决方案
  • Cap开源录屏工具终极指南:从零开始到专业录制的完整教程
  • RARS终极指南:如何扩展RISC-V汇编器模拟器的系统调用功能
  • PixLoc部署教程:从本地环境到云端服务的完整实现方案
  • ETNavBarTransparent实战项目:从零构建一个完整的企业级iOS应用
  • Javinizer多语言支持实战:日语、英语、中文元数据翻译配置指南
  • 如何利用Claude Code Action解决代码文档同步难题:5个实用技巧
  • BabelDOC完整指南:如何用AI技术实现PDF学术论文的精准翻译
  • 如何快速搭建你的本地AI浏览助手:Page Assist完整使用指南