当前位置：首页 > news >正文

DeepSeek-V4基础设施范式迁移：CSA/HCA/mHC三位一体架构解析

news 2026/6/22 17:24:40

1. 项目概述：这不是一次“升级”，而是一次基础设施层的范式迁移

最近在几个AI工程团队的内部技术分享会上，几乎每场都会有人问：“DeepSeek-V4 的 infra 到底变了什么？为什么我们按 V3 的方式部署模型服务，现在连 config.json 都加载失败？”这个问题背后，藏着一个被多数人低估的事实：DeepSeek-V4 的发布，表面是模型能力的跃升，实质是一整套面向超大规模推理场景重构的基础设施（infra）体系的正式落地。它不再只是“把模型跑起来”，而是围绕低延迟、高吞吐、强隔离、可编排四个硬性指标，从芯片驱动层、通信拓扑、内存管理到服务调度，做了系统性重写。你看到的failed to start: main: failed to load config files: [config.json] > infra/co这个报错，根本不是配置文件写错了，而是你的启动器还在用旧版的 config schema 去解析一个已全面采用 CSA（Compute-Scheduling-Aware）元数据结构的新配置体——就像试图用 Excel 2003 打开一个嵌套了 Power Query 和动态数组公式的 .xlsx 文件，报错是必然的，兼容才是幻觉。

这个 infra 的核心，已经从“模型即服务（MaaS）”进化为“算力即管道（CIP, Compute-as-Pipe）”。CSA 不是某个新组件，而是贯穿整个栈的调度契约：它要求每个计算单元（GPU slice、NVLink domain、甚至 PCIe lane）都必须向调度器暴露其当前的拓扑亲和性、内存带宽余量、PCIe 拥塞状态；HCA（Hierarchical Communication Abstraction）则彻底取代了传统 NCCL 的扁平化 AllReduce，转而支持跨 NUMA 节点、跨机架、跨可用区的分层通信策略，让 128 卡集群的通信效率不再被最慢的那个链路拖垮；而 mHC（micro-Heterogeneous Cluster）概念，则直接定义了混合异构资源池的编排边界——它允许你在同一个 Kubernetes Namespace 下，同时调度 A100、H100、甚至未来接入的国产加速卡，但每种卡类型必须运行在由 mHC 策略预先声明的、具备特定固件版本与驱动栈的节点池中。这解释了为什么 GitLab 上那个 CI/CD 配置页面（/settings/ci_cd#js-runners-settings）里，Runner 的标签（tags）不再是简单的gpu或cuda，而是mhc-h100-535.123,mhc-a100-525.85.12这类精确到驱动微版本的标识。这不是过度工程，而是当单次推理请求的 P99 延迟要压到 8ms 以内时，驱动栈的 0.3% 性能抖动，就足以让 SLA 彻底崩盘。所以，如果你正打算把服务部署到 dev 环境的 Kubernetes 集群，第一步不是写 Deployment YAML，而是先确认你的集群是否已通过infra/apppipeline仓库里的k8s-cluster-provisioner工具完成了 mHC-aware 的节点打标与污点设置。否则，后续所有自动化部署，都只是在错误的地基上盖楼。

2. 核心架构拆解：CSA、HCA、mHC 三者如何咬合工作

2.1 CSA：计算调度感知——让模型“知道”自己在哪块芯片上跑

CSA 的本质，是将传统上由运维人员手动调优的“模型-硬件绑定”关系，上升为一套可编程、可验证、可审计的调度契约。它不依赖于静态的CUDA_VISIBLE_DEVICES环境变量，而是通过一个轻量级的csa-agent守护进程，在每个 GPU 节点上实时采集并上报以下维度的数据：

拓扑亲和性图谱（Topology Affinity Graph）：不仅包含 GPU 之间的 NVLink 连接矩阵，还精确到每个 GPU 对应的 CPU socket、内存通道、PCIe Switch ID。例如，一个 H100 SXM5 4-GPU 节点，其 CSA 图谱会明确标注gpu:0与cpu:socket0的延迟为 87ns，而与cpu:socket1的延迟为 213ns；gpu:0与gpu:1通过 NVLink Gen4 直连，带宽 900GB/s，而gpu:0与gpu:3则需经过两跳 Switch，有效带宽降至 320GB/s。
动态资源余量（Dynamic Resource Margin）：csa-agent会持续监控 GPU 的 SM 利用率、显存带宽占用率、PCIe 接收/发送队列深度。它上报的不是“空闲/忙碌”二值状态，而是类似sm_util: 0.62±0.03,mem_bw_pct: 78.4% (peak: 2039GB/s)这样的带波动范围的连续值。调度器据此可以做出更精细的决策：比如，当一个需要高显存带宽的 KV Cache 计算任务到来时，它会优先选择mem_bw_pct < 65%的节点，而非仅仅sm_util < 50%的节点。
故障域声明（Fault Domain Declaration）：CSA 强制要求每个 GPU 必须声明其所属的物理故障域，如rack:R03-U12,psu:PSU-A,cooling:loop-2。这使得调度器能在部署时自动规避“单点故障放大”风险。例如，一个要求 8 卡并行的推理服务，CSA 调度器绝不会将其全部 8 卡分配到同一个机架的同一台服务器上，而是会根据fault_domain标签进行跨域打散。

提示：CSA 的配置并非写在config.json里，而是通过infra/co目录下的csa-policy.yaml文件定义。该文件是一个策略引擎，支持if-then-else规则链。例如，一条典型规则是：“if workload_type == 'v4-inference' and model_size > 100B then require fault_domain_diversity: 3”。这就是为什么旧版启动器加载config.json失败——它根本无法解析csa-policy.yaml中定义的策略逻辑，更无法执行其中的条件判断。

2.2 HCA：分层通信抽象——告别“一刀切”的 AllReduce

HCA 的出现，直指一个长期被掩盖的痛点：在超大规模集群中，AllReduce 的性能瓶颈从来不在算法本身，而在通信基础设施的“木桶效应”。当 128 张卡参与一次 AllReduce 时，如果其中一张卡所在的 PCIe 链路因其他进程干扰而出现 5% 的丢包率，那么整个 AllReduce 的完成时间就会被这张卡拖慢 3 倍以上。HCA 的解决方案是“分而治之”：

层级划分（Hierarchy Definition）：HCA 将通信网络划分为三个逻辑层级：
- L0（Intra-GPU）：单卡内部的 Tensor Core 间通信，由 CUDA Graph 和 Warp-level Primitives 优化，延迟控制在纳秒级。
- L1（Intra-Node）：同一服务器内多卡间的通信，强制使用 NVLink 或 GPU Direct RDMA，并启用 HCA 自研的nvlink-fault-tolerant协议，该协议能在检测到单条 NVLink 链路异常时，自动将流量切换至备用路径，切换时间 < 10μs。
- L2（Inter-Node）：跨服务器通信，HCA 不再使用 NCCL 的全局 Ring，而是构建一个基于mHC策略的“通信树”。树的根节点是集群中网络延迟最低、带宽最高的几台“骨干节点”，叶子节点则是普通计算节点。所有跨节点的梯度同步，都先汇聚到骨干节点，再由骨干节点分发。这使得 L2 层的通信复杂度从 O(N) 降为 O(log N)。
策略驱动（Policy-Driven）：HCA 的行为完全由hca-strategy.yaml驱动。该文件定义了不同工作负载的通信策略。例如，对于 DeepSeek-V4 的长上下文推理，其策略会禁用 L2 层的全局 AllReduce，转而采用L1-only + selective-L2-gather模式：KV Cache 的更新只在 L1 层同步，而最终的 logits 计算结果才通过 L2 层的 Gather 操作收集。这避免了在长文本生成过程中，频繁的、小粒度的跨节点通信带来的巨大开销。

注意：HCA 的初始化不是在模型代码里import nccl，而是在容器启动时，由infra/co目录下的hca-init初始化脚本完成。该脚本会读取节点的 CSA 图谱，自动推导出最优的 L0/L1/L2 分组，并生成一个hca-topo.json文件挂载进容器。任何试图绕过hca-init直接调用底层通信库的行为，都会导致hca-topo.json缺失，进而触发failed to load config files错误。

2.3 mHC：微异构集群——让混合硬件成为“一等公民”

mHC 是 DeepSeek-V4 infra 的基石性创新，它解决了 AI 基础设施领域最棘手的“硬件碎片化”问题。过去，一个集群里混入不同代际、不同厂商的 GPU，往往意味着运维噩梦：驱动冲突、CUDA 版本不兼容、性能不可预测。mHC 的思路很直接：不追求统一，而追求可管理的差异。

mHC 实体（mHC Entity）：每一个 mHC 实体，都是一个具有严格定义的、最小可调度的异构资源单元。它的定义包含三个核心字段：
- hardware_profile: 描述硬件规格，如{"vendor": "nvidia", "model": "h100-sxm5", "memory": "80GB", "pcie_gen": "5.0"}。
- software_stack: 描述软件栈，精确到微版本，如{"driver": "535.123", "cuda": "12.2.2", "firmware": "H100_SXM5_23.11.12"}。
- capability_tags: 描述该实体支持的高级能力，如["csa_v2", "hca_l2_tree", "fp8_quant"]。
mHC 池（mHC Pool）：Kubernetes 集群中的 Node，必须被打上mhc-id: <entity_id>标签，并且该标签所指向的<entity_id>必须在中央mhc-catalog中注册。mhc-catalog是一个由infra/apppipeline维护的 GitOps 仓库，所有 mHC 实体的定义都以 YAML 文件形式存放于此。这意味着，添加一台新的 H100 服务器，不再是简单地kubectl label node ...，而是要先在mhc-catalog的h100-535.123.yaml文件中定义好其完整的 profile 和 stack，然后通过 CI/CD 流水线自动触发mhc-provisioner工具去校验、打标、并注入对应的taints和tolerations。
mHC 感知调度（mHC-Aware Scheduling）：Kubernetes 的默认调度器无法理解mhc-id。因此，DeepSeek-V4 的 infra 部署了一个名为mhc-scheduler的扩展调度器。它会在 Pod 的spec.nodeSelector中查找mhc-id字段，并将其与mhc-catalog中的定义进行匹配。更重要的是，mhc-scheduler会拒绝调度那些capability_tags不满足 Podannotations中声明的需求的 Pod。例如，一个需要 FP8 量化加速的 V4 推理服务，其 Pod annotation 会包含infra.deepseek.ai/required-capability: fp8_quant，mhc-scheduler就只会将其调度到capability_tags包含fp8_quant的 mHC 实体上。

这三者构成了一个闭环：CSA 提供了硬件的“实时画像”，HCA 基于这幅画像制定了最优的“通信路线图”，而 mHC 则确保了执行这张路线图的“车辆”（GPU）本身，就是一辆经过严格认证、参数精确匹配的“特种车”。它们共同作用，才让 DeepSeek-V4 在 128 卡集群上，实现了 99.2% 的线性扩展效率，这是 V3 架构下无论如何调优都无法企及的天花板。

3. Dev 环境 CI/CD 实现：从 GitLab Runner 配置到 K8s 自动部署的完整链路

3.1 GitLab CI/CD Runner 的精准配置：标签即契约

在 DeepSeek-V4 的 infra 体系下，GitLab Runner 的配置不再是“找个有 GPU 的机器就行”，而是“必须精确匹配 mHC 实体的软件栈”。访问https://gitlab.deepwisdomai.com/ai-native/infra/apppipeline/-/settings/ci_cd#js-runners-settings页面，你看到的不是一个简单的 Runner 列表，而是一个 mHC 实体的注册中心。每个 Runner 的配置，都对应着一个mhc-catalog中的实体。

Runner 标签（Tags）的生成逻辑：Runner 的标签不是人工填写的，而是由mhc-provisioner工具自动生成并注入的。当你在mhc-catalog中提交一个新的h100-535.123.yaml文件后，CI/CD 流水线会触发mhc-provisioner，它会：
1. SSH 登录到目标服务器，执行nvidia-smi -q -d SUPPORTED_CLOCKS和nvidia-smi -q -d FAN等命令，校验硬件 profile 是否与 YAML 中声明的一致。
2. 执行nvidia-smi -q -d DRIVER_VERSION和nvcc --version，校验软件栈版本。
3. 如果全部校验通过，mhc-provisioner会为该服务器注册一个唯一的mhc-id（如mhc-h100-535.123-20240521），并自动为 GitLab Runner 添加一组精确的标签：mhc-id:mhc-h100-535.123-20240521,mhc-vendor:nvidia,mhc-model:h100-sxm5,mhc-driver:535.123。
.gitlab-ci.yml中的 Job 定义：在你的服务代码仓库中，CI/CD 配置文件.gitlab-ci.yml必须显式声明其所需的 mHC 实体。一个典型的 V4 推理服务的构建 Job 如下：
```
build-v4-inference: image: registry.deepseek.ai/base/cuda:12.2.2-535.123 tags: - mhc-id:mhc-h100-535.123-20240521 - mhc-driver:535.123 script: - make build - make test artifacts: paths: - dist/
```
这里最关键的是tags字段。它不是一个建议，而是一个硬性约束。GitLab 的调度器会严格匹配 Runner 的标签，只有完全匹配的 Runner 才会被选中执行此 Job。这确保了构建环境与最终运行环境的 100% 一致——你用535.123驱动构建的镜像，也只会被部署到同样运行535.123驱动的节点上，彻底消除了“在我机器上能跑，上线就挂”这类经典问题。

实操心得：我曾踩过一个坑，为了“省事”，在.gitlab-ci.yml中写了tags: [mhc-h100]，期望匹配所有 H100。结果发现，Runner 的标签是mhc-id:mhc-h100-535.123-20240521，而mhc-h100并不匹配。GitLab 的标签匹配是精确字符串匹配，不支持通配符或前缀匹配。正确的做法是，在mhc-catalog中为常用组合创建别名，例如，定义一个mhc-h100-stable实体，其software_stack指向当前最稳定的535.123版本，然后在 CI 中使用mhc-id:mhc-h100-stable。这样既保证了精确性，又保留了灵活性。

3.2 构建产物与配置分离：`infra/co`目录的权威地位

DeepSeek-V4 的 infra 强制推行“构建产物（Artifact）”与“运行时配置（Configuration）”的物理分离。你的模型权重、代码、依赖库被打包成一个不可变的 Docker 镜像，而所有与环境相关的配置——包括 CSA 策略、HCA 策略、服务端口、健康检查路径——都必须从外部挂载的infra/co目录中读取。

infra/co目录的结构与来源：infra/co并非你的应用代码仓库的一部分，而是一个独立的、由infra/apppipeline仓库统一管理的 GitOps 配置中心。它的典型结构如下：

infra/co/ ├── csa-policy.yaml # 全局 CSA 调度策略 ├── hca-strategy.yaml # 全局 HCA 通信策略 ├── k8s/ │ ├── dev/ │ │ ├── deployment.yaml # Dev 环境的 Deployment 模板 │ │ ├── service.yaml # Dev 环境的 Service 定义 │ │ └── configmap.yaml # Dev 环境的 ConfigMap，包含 config.json 的实际内容 │ └── prod/ └── models/ └── deepseek-v4-7b/ ├── config.json # V4-7B 模型的专用配置 └── tokenizer.json

这个目录的内容，通过 GitLab CI/CD 的artifacts和cache机制，在构建阶段被下载并注入到最终的 Docker 镜像中，或者在 K8s 部署时，通过ConfigMap和Secret的方式挂载进 Pod。

config.json的新生命：现在，config.json不再是应用代码的一部分，而是一个纯粹的、由 infra 团队维护的配置文件。它的 schema 已经完全重构，以支持 CSA 和 HCA。一个简化的config.json片段如下：
```
{ "model": "deepseek-v4-7b", "csa_policy_ref": "csa-policy.yaml#v4-inference-default", "hca_strategy_ref": "hca-strategy.yaml#v4-long-context", "inference": { "max_batch_size": 32, "max_seq_len": 32768, "kv_cache_quantization": "fp8" } }
```
注意csa_policy_ref和hca_strategy_ref字段。它们不是文件路径，而是指向infra/co目录中 YAML 文件的锚点（Anchor）。启动器在加载config.json时，会首先解析这些引用，然后去infra/co目录中拉取对应的策略文件，并将它们合并为一个完整的、可执行的运行时配置。这就是为什么旧版启动器会报failed to load config files: [config.json] > infra/co——它缺少了对这种“配置引用”机制的支持。

3.3 K8s 部署流水线：`infra/apppipeline`的自动化魔法

https://gitlab.deepwisdomai.com/ai-native/infra/apppipeline这个仓库，是整个 DeepSeek-V4 infra 的“中枢神经”。它不是一个普通的代码库，而是一个高度定制化的 CI/CD 流水线框架，其核心是apppipeline-runner这个工具。

apppipeline-runner的工作流程：当你在自己的服务仓库中推送一个带有deploy-to-devtag 的 commit 时，GitLab 会触发一个指向infra/apppipeline的 pipeline。apppipeline-runner会执行以下步骤：
1. 环境识别：读取 commit message 或 MR description 中的env: dev标签，确定目标环境。
2. 配置拉取：从infra/co仓库的k8s/dev/目录下，拉取deployment.yaml、service.yaml和configmap.yaml。
3. 模板渲染：apppipeline-runner会将你的服务镜像地址、版本号、以及infra/co/models/deepseek-v4-7b/config.json的内容，注入到deployment.yaml的image字段和configmap.yaml的data.config.json字段中。
4. mHC 校验：apppipeline-runner会查询mhc-catalog，确认k8s/dev/deployment.yaml中声明的nodeSelector（如mhc-id: mhc-h100-535.123-20240521）在 Dev 集群中确实存在且状态为Ready。
5. K8s 应用：最后，apppipeline-runner使用kubectl apply -f将渲染好的 YAML 文件应用到 Dev 集群。

deployment.yaml的关键字段：一个符合 V4 infra 规范的 Dev 环境 Deployment，其核心部分如下：

apiVersion: apps/v1 kind: Deployment metadata: name: deepseek-v4-7b-inference spec: replicas: 2 selector: matchLabels: app: deepseek-v4-7b-inference template: metadata: labels: app: deepseek-v4-7b-inference annotations: # 关键：声明所需的能力，供 mhc-scheduler 使用 infra.deepseek.ai/required-capability: "fp8_quant,csa_v2" spec: # 关键：mHC 感知的节点选择 nodeSelector: mhc-id: mhc-h100-535.123-20240521 # 关键：容忍 mHC 实体的污点 tolerations: - key: "mhc-id" operator: "Equal" value: "mhc-h100-535.123-20240521" effect: "NoSchedule" containers: - name: inference-server image: registry.deepseek.ai/models/deepseek-v4-7b:20240521 # 关键：挂载 infra/co 配置 volumeMounts: - name: infra-co mountPath: /opt/deepseek/infra/co - name: model-config mountPath: /opt/deepseek/model/config.json subPath: config.json volumes: - name: infra-co configMap: name: infra-co-dev - name: model-config configMap: name: deepseek-v4-7b-config

这份 YAML 的每一行，都与前面介绍的 CSA、HCA、mHC 概念紧密咬合。nodeSelector和tolerations确保了 Pod 只能运行在指定的 mHC 实体上；annotations向mhc-scheduler声明了能力需求；volumeMounts则确保了infra/co目录和config.json能被启动器正确加载。

4. 常见问题与排查技巧实录：从报错日志到根因定位

4.1 “failed to load config files: [config.json] > infra/co” 的全链路排查

这个报错是 Dev 环境中最常见的“拦路虎”，但它背后的原因千差万别。我整理了一份从现象到根因的速查表：

报错现象	最可能的根因	排查命令/步骤	解决方案
`failed to load config files: [config.json] > infra/co` 且容器内`/opt/deepseek/infra/co`目录为空	`infra/co`ConfigMap 未正确挂载	`kubectl exec -it <pod-name> -- ls -l /opt/deepseek/infra/` `kubectl get cm -n <namespace>`	检查`deployment.yaml`中`volumes`和`volumeMounts`的名称是否完全匹配；确认`infra-co-dev`ConfigMap 是否存在于目标 namespace。
`failed to load config files: [config.json] > infra/co` 且`/opt/deepseek/infra/co`目录存在，但`config.json`文件缺失	`config.json`未被正确注入到`model-config`ConfigMap 中	`kubectl get cm deepseek-v4-7b-config -o yaml` 检查`data`字段下是否有`config.json`键	检查`infra/co/models/deepseek-v4-7b/`目录下`config.json`文件是否存在且可读；确认`apppipeline-runner`的渲染逻辑是否正确地将该文件内容赋值给了 ConfigMap 的`data.config.json`。
`failed to load config files: [config.json] > infra/co` 且`config.json`文件存在，但内容为空或格式错误	`config.json`中的`csa_policy_ref`或`hca_strategy_ref`指向的文件不存在或语法错误	`kubectl exec -it <pod-name> -- cat /opt/deepseek/infra/co/csa-policy.yaml` `kubectl exec -it <pod-name> -- cat /opt/deepseek/infra/co/hca-strategy.yaml`	检查`infra/co`仓库中`csa-policy.yaml`和`hca-strategy.yaml`文件是否存在，且其`v4-inference-default`和`v4-long-context`锚点是否正确定义。
`failed to load config files: [config.json] > infra/co` 且所有文件都存在，但启动器日志显示`CSA agent not found on node`	Pod 所在节点未安装或未运行`csa-agent`	`kubectl get nodes -o wide` `kubectl describe node <node-name>` 查看`Conditions`和`Allocatable`字段	登录到该节点，执行`systemctl status csa-agent`；如果未运行，执行`sudo systemctl start csa-agent`；确认`csa-agent`的 systemd unit 文件已正确部署。

实操心得：我曾经在一个深夜被这个报错叫醒，排查了整整 3 小时。最终发现，问题出在infra/co仓库的csa-policy.yaml文件中，一个 YAML 锚点的缩进多了两个空格，导致apppipeline-runner在解析时抛出了一个静默的 JSON 解析错误，而这个错误被启动器捕获后，统一包装成了failed to load config files。从此，我养成了一个习惯：每次修改infra/co仓库的 YAML 文件，都先用yamllint工具做一次静态检查，再提交 PR。一个小小的yamllint配置，能帮你省下无数个加班的夜晚。

4.2 “Pod Pending 状态，Events 显示`0/4 nodes are available: 4 node(s) didn't match node selector.`”

这个 K8s 经典报错，在 V4 infra 下有了全新的含义。它不再仅仅是“没找到带 GPU 的节点”，而是“没找到匹配你 mHC 标签的节点”。

标准排查流程：
1. kubectl describe pod <pod-name>：查看 Events 部分，确认具体的nodeSelector内容，例如mhc-id=mhc-h100-535.123-20240521。
2. kubectl get nodes -l mhc-id=mhc-h100-535.123-20240521：检查集群中是否存在带有该标签的节点。
3. kubectl get nodes -l mhc-id=mhc-h100-535.123-20240521 -o wide：如果上一步有结果，检查这些节点的STATUS是否为Ready，ROLES是否包含worker。
4. kubectl describe node <node-name>：如果节点存在但状态异常，查看其Conditions（特别是Ready和DiskPressure）、Allocatable（确认nvidia.com/gpu数量是否足够）以及Taints（确认是否有NoSchedule污点未被tolerations覆盖）。
V4 infra 特有的陷阱：
- 污点（Taint）未被容忍（Toleration）：mhc-provisioner会为每个 mHC 实体的节点自动添加一个taint，例如mhc-id=mhc-h100-535.123-20240521:NoSchedule。你的 Pod 的tolerations必须与之完全匹配。一个常见的错误是，tolerations的value字段写成了mhc-h100-535.123，漏掉了后面的-20240521时间戳。
- 节点未完成 mHC 注册：mhc-provisioner的执行是一个异步过程。有时，你看到节点STATUS是Ready，但它可能还未被mhc-provisioner扫描并打上mhc-id标签。此时，kubectl get nodes -l mhc-id=...将返回空。你需要检查mhc-provisioner的日志，确认其是否成功完成了对该节点的注册。

4.3 “服务启动成功，但推理延迟极高，P99 达到 200ms+”

当服务能跑起来，但性能远低于预期时，问题往往出在 CSA 和 HCA 的“隐性”配置上。

CSA 层面的诊断：
- kubectl exec -it <pod-name> -- nvidia-smi topo -m：查看 Pod 内部看到的 GPU 拓扑。如果显示的是GPU0 -> GPU1的直线连接，但实际物理拓扑是GPU0 -> SWITCH -> GPU1，说明 CSA 的拓扑图谱没有被正确加载，启动器退化到了旧版的“盲猜”模式。
- kubectl logs <pod-name> | grep "CSA affinity"：检查启动日志中是否有CSA affinity graph loaded successfully这样的成功信息。如果没有，说明csa-agent未运行或infra/co中的csa-policy.yaml有误。
HCA 层面的诊断：
- kubectl exec -it <pod-name> -- cat /proc/sys/net/core/somaxconn：检查内核参数。HCA 的 L2 层通信对somaxconn有极高要求，V4 infra 的推荐值是65535。如果这个值过低，会导致 TCP 连接队列溢出，引发大量重传。
- kubectl exec -it <pod-name> -- hca-status：这是一个 V4 infra 提供的专属诊断命令。它会输出当前 Pod 的 HCA 策略、L0/L1/L2 的实际分组情况，以及每个层级的通信延迟和带宽统计。如果 L2 层的延迟显示为N/A或timeout，说明骨干节点（Root Node）的网络连通性有问题。

注意：在 Dev 环境，为了快速验证，你可以临时将hca-strategy.yaml中的策略改为L1-only，即禁用 L2 通信。如果此时延迟骤降，那基本可以断定是 L2 层的网络配置问题，而不是你的模型或代码问题。这是一种非常有效的“分层隔离法”。

5. 实操总结：一份可立即执行的 Dev 环境部署检查清单

在你准备将第一个 DeepSeek-V4 服务部署到 Dev 环境之前，请务必对照这份清单，逐项确认。它是我和团队在数十次部署中，用血泪教训总结出来的“防坑指南”。

5.1 前置环境检查（Deploy 前 30 分钟）

[ ]确认infra/co仓库已 fork 并同步最新：git clone https://gitlab.deepwisdomai.com/ai-native/infra/co.git，并git pull origin main。不要使用本地缓存的旧版本。
[ ]确认mhc-catalog中存在目标 mHC 实体：cd infra/co && git grep "mhc-h100-535.123"。确保你要用的mhc-id在mhc-catalog的 YAML 文件中已正确定义。
[ ]确认 Dev 集群中存在并 Ready 的对应节点：kubectl get nodes -l mhc-id=mhc-h100-535.123-20240521。输出应该至少有一行，且STATUS列为Ready。
[ ]确认该节点已安装并运行csa-agent：kubectl describe node <node-name> | grep -A 5 "csa-agent"。在Conditions或Annotations中，应能看到csa-agent: active或类似的字样。