当前位置: 首页 > news >正文

CANN/ge LLM-DataDist错误码

# error-code

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

error-code是通过如下宏定义的。

namespace llm_datadist { constexpr Status LLM_SUCCESS = 0x0U; constexpr Status LLM_FAILED = 0xFFFFFFFFU; constexpr Status LLM_WAIT_PROC_TIMEOUT = 0x5010B001U; constexpr Status LLM_KV_CACHE_NOT_EXIST = 0x5010B002U; constexpr Status LLM_PARAM_INVALID = 0x5010B005U; constexpr Status LLM_NOT_YET_LINK = 0x5010B007U; constexpr Status LLM_ALREADY_LINK = 0x5010B008U; constexpr Status LLM_LINK_FAILED = 0x5010B009U; constexpr Status LLM_UNLINK_FAILED = 0x5010B00AU; constexpr Status LLM_NOTIFY_PROMPT_UNLINK_FAILED = 0x5010B00BU; constexpr Status LLM_CLUSTER_NUM_EXCEED_LIMIT = 0x5010B00CU; constexpr Status LLM_PROCESSING_LINK = 0x5010B00DU; constexpr Status LLM_DEVICE_OUT_OF_MEMORY = 0x5010B00EU; constexpr Status LLM_EXIST_LINK = 0x5010B018U; constexpr Status LLM_FEATURE_NOT_ENABLED = 0x5010B019U; constexpr Status LLM_TIMEOUT = 0x5010B01AU; constexpr Status LLM_LINK_BUSY = 0x5010B01BU; constexpr Status LLM_OUT_OF_MEMORY = 0x5010B01CU; } // namespace llm_datadist

具体error-code含义如下。

枚举值含义是否可恢复解决办法
LLM_SUCCESS成功
LLM_FAILED通用失败保留现场,获取Host/Device日志,并备份。
LLM_WAIT_PROC_TIMEOUT处理超时- 如果是PullKvCache、PullKvBlocks等传输相关接口报该错误,该链路不可恢复,需重新建链。
- 其他接口报该异常,加大超时时间并重试。
LLM_KV_CACHE_NOT_EXISTKV不存在- 检查cache_id是否正确。
- 检查是否Cache已经释放。
- 检查对应全量侧报错日志中的请求是否完成。
- 检查是否存在重复拉取。
LLM_PARAM_INVALID参数错误基于日志排查错误原因。
LLM_NOT_YET_LINK没有建链上层排查Decode与Prompt建链情况。
LLM_ALREADY_LINK重复建链上层排查Decode与Prompt建链情况。
LLM_LINK_FAILED建链失败LinkLlmClusters第二个返回值中有该error-code时,需要检查对应集群之间的网络连接。
LLM_UNLINK_FAILED断链失败UnlinkLlmClusters第二个返回值中有该error-code时,需要检查对应集群之间的网络连接。
LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败1. 排查Decode与Prompt之间的网络连接。
2. 主动调Prompt侧的UnlinkLlmClusters接口清理残留资源。
LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制检查LinkLlmClusters和UnlinkLlmClusters传入参数,clusters数量不能超过16。
LLM_PROCESSING_LINK正在处理建链当前正在执行建链或断链操作,请稍后再试。
LLM_DEVICE_OUT_OF_MEMORYDevice内存不足检查申请的内存是否没有释放。
LLM_EXIST_LINK设置角色时,存在未释放的链接检查在SetRole前是否已经调用UnlinkLlmClusters断开所有的链接。
LLM_FEATURE_NOT_ENABLED特性未使能检查初始化LLM-DataDist时是否传入了必要option。
如果是SetRole时抛出该异常,排查初始化时是否设置了OPTION_ENABLE_SET_ROLE = "1"
LLM_TIMEOUT处理超时保留现场,获取Host/Device日志,并备份。
LLM_LINK_BUSY链路忙预留error-code,暂不会返回。
LLM_OUT_OF_MEMORY内存不足检查内存池或系统内存是否充足。

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1120037/

相关文章:

  • Instatic安全扫描工具:漏洞检测与修复建议
  • GPT-4o与GPT-4模型版本辨析及合规调用指南
  • 视频画质终极提升指南:用Video2X免费实现4K超分辨率
  • 如何扩展eldarion-ajax:创建自定义处理器和事件监听器
  • 解决Laravel Vonage Notification Channel常见问题:调试与错误处理指南
  • 如何免费获取BTTV安卓版:安全下载与安装完整教程
  • Python三维数学建模
  • CANN/asc-devkit SetGradOutput卷积反向梯度设置
  • Frozen扩展开发指南:如何为Frozen添加自定义数据格式支持
  • 如何快速入门httpcache:5分钟实现Go HTTP客户端缓存
  • ZFS-inplace-rebalancing代码实现原理深度解析
  • 给你的桌面注入灵魂:用DyberPet打造会呼吸的数字伙伴
  • Python依赖注入终极指南:python-inject常见问题解答从入门到精通
  • Heya配置完全指南:从基础设置到高级优化的10个技巧
  • ngxtension 数组与对象工具:简化 Angular 数据处理的核心函数
  • BlueHound与Neo4j深度集成:如何利用图数据库技术可视化攻击路径
  • Autopilot-Notes:高精地图与SLAM技术的融合应用深度解析
  • ReScript genType 在 CI/CD 中的集成:自动化类型生成与验证流程
  • 从零到一:使用MeshApiExamples创建自定义程序化网格编辑器
  • 终极指南:如何用Video2X将模糊视频智能修复到4K高清画质
  • Xous代码贡献指南:从代码审查到发布流程的完整手册
  • httpcache缓存策略详解:Fresh、Stale和Transparent状态管理
  • 如何用WeChatMsg构建个人数据主权:微信聊天记录永久保存与智能分析完整指南
  • Flask-profiler配置详解:从SQLite到MongoDB的存储方案选择
  • httpcache:Go语言中RFC 7234兼容的HTTP缓存传输器完全指南
  • OpenTracing-Python异步编程支持:asyncio、gevent和Tornado集成指南
  • CircularProgressView终极配置指南:15个XML属性详解与实战应用
  • GPT-4 Turbo如何重塑科研教学工作流:128k上下文与多模态协同实践
  • 如何使用gh-markdown-preview实现Markdown文件的实时预览与编辑:GitHub CLI用户的终极指南
  • Windows用户如何免费获得苹果苹方字体体验?3分钟快速安装终极指南