当前位置：首页 > news >正文

CANN/ge LLM-DataDist错误码

news 2026/7/4 6:36:28

# error-code

【免费下载链接】geGE（Graph Engine）是面向昇腾的图编译器和执行器，提供了计算图优化、多流并行、内存复用和模型下沉等技术手段，加速模型执行效率，减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力，并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

error-code是通过如下宏定义的。

namespace llm_datadist { constexpr Status LLM_SUCCESS = 0x0U; constexpr Status LLM_FAILED = 0xFFFFFFFFU; constexpr Status LLM_WAIT_PROC_TIMEOUT = 0x5010B001U; constexpr Status LLM_KV_CACHE_NOT_EXIST = 0x5010B002U; constexpr Status LLM_PARAM_INVALID = 0x5010B005U; constexpr Status LLM_NOT_YET_LINK = 0x5010B007U; constexpr Status LLM_ALREADY_LINK = 0x5010B008U; constexpr Status LLM_LINK_FAILED = 0x5010B009U; constexpr Status LLM_UNLINK_FAILED = 0x5010B00AU; constexpr Status LLM_NOTIFY_PROMPT_UNLINK_FAILED = 0x5010B00BU; constexpr Status LLM_CLUSTER_NUM_EXCEED_LIMIT = 0x5010B00CU; constexpr Status LLM_PROCESSING_LINK = 0x5010B00DU; constexpr Status LLM_DEVICE_OUT_OF_MEMORY = 0x5010B00EU; constexpr Status LLM_EXIST_LINK = 0x5010B018U; constexpr Status LLM_FEATURE_NOT_ENABLED = 0x5010B019U; constexpr Status LLM_TIMEOUT = 0x5010B01AU; constexpr Status LLM_LINK_BUSY = 0x5010B01BU; constexpr Status LLM_OUT_OF_MEMORY = 0x5010B01CU; } // namespace llm_datadist

具体error-code含义如下。

枚举值	含义	是否可恢复	解决办法
LLM_SUCCESS	成功	无	无
LLM_FAILED	通用失败	否	保留现场，获取Host/Device日志，并备份。
LLM_WAIT_PROC_TIMEOUT	处理超时	是	- 如果是PullKvCache、PullKvBlocks等传输相关接口报该错误，该链路不可恢复，需重新建链。 - 其他接口报该异常，加大超时时间并重试。
LLM_KV_CACHE_NOT_EXIST	KV不存在	是	- 检查cache_id是否正确。 - 检查是否Cache已经释放。 - 检查对应全量侧报错日志中的请求是否完成。 - 检查是否存在重复拉取。
LLM_PARAM_INVALID	参数错误	是	基于日志排查错误原因。
LLM_NOT_YET_LINK	没有建链	是	上层排查Decode与Prompt建链情况。
LLM_ALREADY_LINK	重复建链	是	上层排查Decode与Prompt建链情况。
LLM_LINK_FAILED	建链失败	是	LinkLlmClusters第二个返回值中有该error-code时，需要检查对应集群之间的网络连接。
LLM_UNLINK_FAILED	断链失败	是	UnlinkLlmClusters第二个返回值中有该error-code时，需要检查对应集群之间的网络连接。
LLM_NOTIFY_PROMPT_UNLINK_FAILED	通知Prompt侧断链失败	是	1. 排查Decode与Prompt之间的网络连接。 2. 主动调Prompt侧的UnlinkLlmClusters接口清理残留资源。
LLM_CLUSTER_NUM_EXCEED_LIMIT	集群数量超过限制	是	检查LinkLlmClusters和UnlinkLlmClusters传入参数，clusters数量不能超过16。
LLM_PROCESSING_LINK	正在处理建链	是	当前正在执行建链或断链操作，请稍后再试。
LLM_DEVICE_OUT_OF_MEMORY	Device内存不足	是	检查申请的内存是否没有释放。
LLM_EXIST_LINK	设置角色时，存在未释放的链接	是	检查在SetRole前是否已经调用UnlinkLlmClusters断开所有的链接。
LLM_FEATURE_NOT_ENABLED	特性未使能	是	检查初始化LLM-DataDist时是否传入了必要option。如果是SetRole时抛出该异常，排查初始化时是否设置了OPTION_ENABLE_SET_ROLE = "1"
LLM_TIMEOUT	处理超时	否	保留现场，获取Host/Device日志，并备份。
LLM_LINK_BUSY	链路忙	是	预留error-code，暂不会返回。
LLM_OUT_OF_MEMORY	内存不足	是	检查内存池或系统内存是否充足。