当前位置: 首页 > news >正文

CANN hixl LLM状态码

LLMStatusCode

【免费下载链接】hixlHIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl

LLMException中status_code对应的枚举类,枚举值及解决方法如下表。

枚举值含义是否可恢复解决办法
LLM_SUCCESS成功
LLM_FAILED通用失败重启机器或容器。
保留现场,获取Host/Device日志,并备份。
LLM_PARAM_INVALID参数错误基于日志排查错误原因。
LLM_KV_CACHE_NOT_EXISTKV不存在- 检查对应全量侧报错日志中的请求是否完成。
- 检查是否存在重复拉取。
- 检查标记目标cache的参数是否错误。
LLM_REPEAT_REQUEST重复请求检查是否存在重复调用。
LLM_NOT_YET_LINK没有建链上层排查Decode与Prompt建链情况。
LLM_ALREADY_LINK已经建过链上层排查Decode与Prompt建链情况。
LLM_LINK_FAILED建链失败link_clusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_UNLINK_FAILED断链失败unlink_clusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败1. 排查Decode与Prompt之间的网络连接。
2. 主动调Prompt侧的unlink_clusters清理残留资源。
LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制。排查link_clusters和unlink_clusters传入参数,clusters数量不能超过16。
LLM_PROCESSING_LINK正在处理建链当前正在执行建链或断链操作,请稍后再试。
LLM_PREFIX_ALREADY_EXIST前缀已经存在检查是否已加载过相同Prefix Id的公共前缀。如果是,需要先释放。
LLM_PREFIX_NOT_EXIST前缀不存在检查Request中的Prefix Id是否已加载过。
LLM_EXIST_LINKswitch_role时,存在未释放的链接。检查在切换当前LLMDataDist的角色前是否已经调用unlink_clusters断开所有的链接。
LLM_FEATURE_NOT_ENABLED特性未使能检查初始化LLMDataDist时是否传入了必要option。
如果是切换当前LLMDataDist的角色时抛出该异常,排查初始化时LLMConfig是否设置了enable_switch_role = True。
LLM_TIMEOUT处理超时- 如果是pull_cache、pull_blocks、transfer_cache_async等传输相关接口报错,该链路不可恢复,需重新建链。
- 其他接口报该异常,加大超时时间并重试。
LLM_LINK_BUSY链路繁忙检查同时调用的接口是否有冲突,例如:同时调用如下接口时,会报该错误码。
同时调用unlink和pull_cache。
使用相同链路同时调用pull_cache和transfer_cache_async。
LLM_OUT_OF_MEMORY内存不足检查内存池是否足够容纳申请的KV大小。
检查申请的内存是否没有释放。
LLM_DEVICE_MEM_ERROR出现内存UCE(incorrect error,指系统硬件不能直接处理恢复内存错误)的错误虚拟地址获取并修复内存UCE的错误虚拟地址。如果是KV Cache内存,需要再调用cache manager的remap_registered_memory接口修复注册给网卡的KV Cache内存。
说明: 本错误码为预留,暂不支持。
LLM_SUSPECT_REMOTE_ERROR疑似是UCE内存故障上层框架需要结合其它故障进行综合判断是UCE内存故障还是他故障。
LLM_UNKNOWN_ERROR未知错误保留现场,获取Host/Device日志,并备份。

请参考PyTorch的torch_npu.npu.restart_device接口的说明获取并修复内存UCE的错误虚拟地址。

【免费下载链接】hixlHIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787454/

相关文章:

  • STM32调试与SWV跟踪实战指南
  • RAG技术大揭秘:从入门到高阶,助你构建智能问答系统!
  • AI+HPC协同加速固态电解质材料发现:以NaxLi3−xYCl6为例的实战解析
  • CANN/cannbot-skills 文档编写指南
  • 2026年4月优秀的二手衬四氟管道批发厂家推荐,二手对辊带式压榨机/二手衬塑铁罐,二手衬四氟管道批发厂家推荐 - 品牌推荐师
  • 2026年比较好的膜结构看台棚/膜结构汽车棚/张家港膜结构停车棚品质保障公司 - 品牌宣传支持者
  • DataForSEO API社区文档:提升SEO数据集成效率的实战指南
  • 2026年知名的膜结构加油站棚/膜结构交车充电桩棚/膜结构工厂棚优选公司推荐 - 品牌宣传支持者
  • 2026年靠谱的加气砖加气砌块/砌墙加气砖/加气砼砌块推荐厂家精选 - 行业平台推荐
  • OpenClaw网关端到端测试:Bash脚本实现零依赖自动化验证
  • 大模型“幻觉”不再!揭秘RAG技术如何让AI开卷考试,秒变知识达人!
  • JAKCO:用户中心迭代开发框架,融合敏捷与DDD的渐进式架构演进
  • 2026年产地直供佛山南海蔬菜批发/菌菇类批发市场用户好评榜 - 行业平台推荐
  • Acontext:为AI智能体构建可解释、可编辑的技能记忆层
  • 【含 v2.7.1 安装包】超省心 OpenClaw 2.7.1 部署,零代码零基础无需命令小白快速上手
  • 2026年靠谱的量身职业装定制/酒吧职业装定制推荐榜单公司 - 品牌宣传支持者
  • Crystal Claw:为AI智能体构建持久化、可检索的碎片化记忆系统
  • ImagenTY技能包:基于阿里云百炼,专为中文文字渲染与高质量写实图像生成而设计
  • 自托管AI知识库Khoj部署指南:打造离线可用的个人第二大脑
  • 选择钉钉机器人还是企业微信机器人用于运维告警有什么区别?
  • CANN/runtime 算力Group查询与设置
  • 从零复刻Stripe官网动态背景:WebGL着色器与Next.js实战
  • 2026年进口进口国产水果交易市场/广佛水果货源批发市场批发热销榜 - 品牌宣传支持者
  • 产品经理开项目对齐会不想记笔记?2026年这3款视频内容总结ai工具,散会直接出完整纪要
  • 基于大语言模型的自主代码生成智能体:从原理到实战搭建
  • 浏览器扩展开发实战:基于DOM操作与规则引擎的文本Emoji智能替换
  • 2026年智能网联新能源汽车产业园物流/汽车产业园链物流枢纽/新能源汽车配套产业园哪家服务好 - 行业平台推荐
  • Godot 4实时语音插件集成指南:基于WebRTC的多人游戏语音通信实现
  • 苹果Vision Pro开发指南:从RealityKit到空间计算实战
  • 2026年知名的pro喷枪/常熟仿金马喷枪用户口碑推荐厂家 - 行业平台推荐