当前位置: 首页 > news >正文

CANN/GE PushKvBlocks接口

# PushKvBlocks

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 推理系列产品:支持
  • Atlas A2 训练系列产品:不支持

函数功能

通过配置block列表的方式,从本地节点推送Cache到远端节点,仅当角色为Prompt时可调用。

函数原型

Status PushKvBlocks(const Cache &src_cache, const CacheIndex &dst_cache_index, const std::vector<uint64_t> &src_blocks, const std::vector<uint64_t> &dst_blocks, const KvCacheExtParam &ext_param = {});

参数说明

参数名称输入/输出取值说明
src_cache输入本地源Cache。
dst_cache_index输入远端目的Cache的索引。
src_blocks输入源Cache的block index列表。
dst_blocks输入目的Cache的block index列表。
ext_param输入当前支持ext_param中src_layer_range的sencond与first的差值和dst_layer_range的sencond与first的差值一致。src_layer_range和dst_layer_range的first和second默认值都是-1,表示全部的层。取值范围都是[0, 最大可用层索引],且first小于等于second。 最大可用层索引值的计算公式如下。
(CacheDesc::num_tensors / KvCacheExtParam::tensor_num_per_layer) - 1
当前支持tensor_num_per_layer取值范围是[1, 当前cache的tensor总数],默认值为2。当src_layer_range或dst_layer_range取值为非默认值时, tensor_num_per_layer可以保持默认值,也可以输入其他值,输入其他值的时,tensor_num_per_layer的取值还需要被当前cache的tensor总数整除。

调用示例

CacheDesc kv_desc{}; kv_desc.data_type = llm_datadist::DT_INT32; kv_desc.shape = {4, 16}; kv_desc.num_tensors = 4; Cache cache{}; llm_datadist.AllocateCache(kv_desc, cache); CacheIndex dst_cache_key{0, 1}; KvCacheExtParam ext_param{}; ext_param.src_layer_range = std::pair<int32_t, int32_t>(3, 3); ext_param.dst_layer_range = std::pair<int32_t, int32_t>(3, 3); ext_param.tensor_num_per_layer = 1; std::vector<uint64_t> prompt_blocks = {0, 1, 2, 3}; std::vector<uint64_t> decoder_blocks = {3, 2, 1, 0}; Status ret = llm_datadist.PushKvBlocks(cache, dst_cache_key, prompt_blocks, decoder_blocks , ext_param);

返回值

  • LLM_SUCCESS:成功
  • LLM_PARAM_INVALID:参数错误
  • LLM_NOT_YET_LINK:与远端cluster没有建链
  • LLM_TIMEOUT:推送超时
  • LLM_KV_CACHE_NOT_EXIST:本地或远端KV Cache不存在
  • 其他:失败

约束说明

该接口调用之前,需要先调用Initialize接口完成初始化。src_cache必须为AllocateCache接口申请出的Cache。

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1119907/

相关文章:

  • Zuban性能优化秘籍:让大型Python项目类型检查速度提升5倍
  • Flask-profiler高级技巧:采样功能与自定义存储引擎开发
  • Flutter游戏物理引擎:碰撞检测与游戏逻辑实现
  • 矩估计法实战:用样本矩估计总体参数的2个经典案例与Python实现
  • 免费B站会员购抢票神器:告别手速焦虑的终极解决方案
  • 10分钟上手SickGear:新手必备的TV自动化工具安装教程
  • aight实战:10个常见IE兼容性问题的简单解决方案
  • translate-python vs 其他翻译工具:性能、功能与易用性全面对比 [特殊字符]
  • Qwen3.6-35B-A3B无审查模型实战突破:零拒绝率多模态AI深度解析
  • 如何快速掌握机器人导航核心:SLAM技术入门与实践指南
  • 数据库备份恢复全流程:RTO实测评估+PITR时间点恢复+备份策略分层设计
  • 永磁同步电机三闭环控制中的位置环优化策略
  • IGBT结温估算技术:提升电机控制器可靠性的关键
  • Maven入门指南:10分钟掌握Java项目构建的终极秘籍 [特殊字符]
  • Joplin多设备同步冲突:从被动修复到主动预防的技术体系构建
  • CANN / asc-devkit: asc_loadalign_brc_elem BRC搬入API
  • 从理论到实践:gh_mirrors/yo/yolo_research中SwinTransformerV2注意力机制的应用详解
  • 【Java课程设计/毕业设计】数字化食堂食品安全溯源管理系统的设计与实现 基于前后端分离的智慧餐饮综合服务平台【附源码、数据库、万字文档】
  • 操作变换(OT)技术详解:Leaps如何确保多人编辑零冲突的核心原理
  • Everywhere桌面AI助手:5分钟快速安装部署指南
  • Open-Source-Prompt-Library:UX设计流程的简单实用指南
  • ehentai-qt开发者指南:从源码结构到API调用的实战教程
  • Maven依赖管理完全教程:告别JAR包地狱的终极指南
  • 一键修复与安装脚本:Linux服务器运维的自动化解决方案
  • Primer设计系统配色方案深度解析:GitHub官方色彩系统使用教程
  • Primer设计系统表单组件最佳实践:TextInput、Select、Checkbox等表单元素设计指南
  • 终极MSEdgeRedirect完全指南:如何快速重定向Edge链接到默认浏览器
  • 高性能多协议金融交易接口平台:openctp技术深度解析
  • nginx-auth-ldap核心参数解析:url、binddn与group_attribute配置技巧
  • 如何用Open-Source-Prompt-Library在7天内完成MVP概念验证?