当前位置: 首页 > news >正文

CANN/GE LLM-DataDist CacheDesc API文档

# CacheDesc

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

函数功能

构造CacheDesc,通常在KvCacheManager的allocate_cache接口中作为参数类型使用。

函数原型

__init__(self, num_tensors: int, shape: Union[Tuple[int], List[int]], data_type: DataType, placement: Placement = Placement.DEVICE, batch_dim_index: int = 0, seq_len_dim_index: int = -1, kv_tensor_format: str = None)

参数说明

参数名称数据类型取值说明
num_tensorsintcache中tensor的个数。
shapeUnion[Tuple[int], List[int]]tensor的shape。
data_typeDataTypetensor的data type。
placementPlacement表示cache所在的设备类型。默认值Placement.DEVICE。
batch_dim_indexint表示shape中batch size所在维度。默认值0,表示在第0维。
seq_len_dim_indexint表示shape中seq_len所在维度。默认值-1,表示未配置。
kv_tensor_formatstr表示cache的format。

调用示例

from llm_datadist import CacheDesc cache_desc = CacheDesc(80, [4, 2048, 1, 128], DataType.DT_FLOAT16)

返回值

正常情况下返回CacheDesc的实例。

传入数据类型错误情况下会抛出TypeError或ValueError异常。

约束说明

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1120715/

相关文章:

  • Apache Maven 多版本发布:管理项目构建,快速上手有门道
  • PAT 乙级题目讲解:1006《换个格式输出整数》
  • RobustBench核心功能深度解析:从模型库到排行榜的完整工作流
  • 10分钟掌握Touch WX单文件开发模式,告别传统四文件烦恼
  • UniApp相关知识点整理
  • PAT 乙级题目讲解:1017《A除以B》
  • Mermaid Live Editor:5分钟用代码画出专业图表的终极指南
  • Mermaid Live Editor:免费在线图表编辑器的终极完整指南
  • Elm-platform开发服务器详解:elm-reactor的10个实用功能
  • 空洞骑士模组管理器Scarab:终极安装配置指南
  • Leela Chess Zero源代码详解:从棋盘表示到蒙特卡洛树搜索实现
  • PAT 乙级题目讲解:1012《数字分类》
  • PTEF框架入门:从零开始建立紫队演练计划的7天指南
  • PyTorch神经网络基础与实战:从FNN到RNN
  • nwpu-cram之机器人编程:ROS基础与应用
  • DeepSeek国产大模型家族:开源、中文强、工程友好
  • MEGA_F 00000-2006-000-06 直线驱动器模块
  • ZFS-inplace-rebalancing进度监控与日志分析完全指南
  • CANN PID控制性能指标
  • SteamShutdown终极指南:让电脑在Steam下载完成后自动关闭
  • 终极Varnish Dashboard:实时监控多服务器的完整解决方案
  • PyTorch实战:CNN卷积神经网络进阶技巧与优化
  • TVA:具身智能的动力引擎与能力底座(系列)
  • Kronos股票预测AI:三分钟搭建你的智能投资大脑,准确率突破85%的终极方案
  • YOLOv8工业落地全流程:从网络解析到多平台部署实战
  • PAT 乙级题目讲解:1016《部分A+B》
  • 新能源汽车热管理系统核心零部件及工作原理详解
  • PyMiniRacer异常处理全攻略:解析错误类型与调试技巧
  • Kimi Chat vs GPT-4o中文编程实测:从LeetCode到Django开发
  • 炉石传说加速器:用HsMod提升游戏效率300%的终极指南