当前位置：首页 > news >正文

云原生 AI 平台架构设计：从模型服务到弹性调度的全链路工程实践

news 2026/6/16 6:28:15

云原生 AI 平台架构设计：从模型服务到弹性调度的全链路工程实践

一、AI 平台落地为何总是卡在基础设施层

AI 模型从实验环境走向生产部署，往往面临一系列基础设施层面的挑战。训练任务需要 GPU 资源弹性伸缩，推理服务要求低延迟与高可用，模型版本迭代需要灰度发布能力——这些需求在传统后端架构中已有成熟方案，但在 AI 场景下却因 GPU 资源的特殊性而变得复杂。

生产环境中的 AI 平台需要同时解决三个核心矛盾：GPU 资源昂贵但利用率低（集群平均利用率常低于 40%）、推理流量波动大但扩缩容延迟高（冷启动一个模型服务可能需要 30 秒以上）、模型版本迭代频繁但线上不能中断服务。这些矛盾不是单一技术点能解决的，必须从架构层面进行系统设计。

二、云原生 AI 平台的核心架构与调度机制

一个生产级云原生 AI 平台的架构，需要覆盖从模型存储、资源调度、服务编排到可观测性的完整链路。以下架构图展示了核心组件及其协作关系：

flowchart TB A[模型仓库: Model Registry] --> B[模型版本管理] B --> C[构建引擎: Container Build] C --> D[镜像仓库: Harbor] E[调度器: AI Scheduler] --> F[GPU 资源池] E --> G[CPU 资源池] E --> H[Spot 实例池] D --> I[推理服务: Inference Runtime] F --> I G --> I I --> J[网关: API Gateway] J --> K[流量管理: 灰度/镜像/限流] K --> L[可观测性: Metrics/Traces/Logs] E --> M[弹性伸缩: HPA + GPU Utilization] M --> I subgraph 控制面 E M B end subgraph 数据面 I J K end

2.1 模型服务层：从镜像到运行时

模型服务的核心挑战在于冷启动延迟。一个 LLM 推理服务的镜像可能超过 10GB，包含模型权重、CUDA 运行时和 Python 依赖。传统的 Pod 拉取方式在弹性扩容时会产生不可接受的延迟。

解决方案是采用模型预热 + 镜像分层缓存策略：

基础层镜像：包含 CUDA Runtime、Python 环境，预加载在所有 GPU 节点上
模型权重层：通过 PVC 或对象存储挂载，避免每次拉取
运行时配置层：仅包含服务入口代码，体积最小

2.2 调度器：GPU 感知的智能调度

Kubernetes 原生调度器不感知 GPU 拓扑，无法区分同一节点上不同 GPU 之间的 NVLink 连接关系。对于多卡推理场景，调度器必须将 Pod 调度到具有 NVLink 互联的 GPU 组上，否则跨卡通信延迟会严重拖慢推理性能。

2.3 弹性伸缩：GPU 利用率驱动的 HPA

传统 HPA 基于 CPU 利用率伸缩，但 GPU 推理服务的瓶颈通常不在 CPU。需要自定义 Metrics 采集 GPU 利用率、推理队列深度和请求延迟，作为伸缩的驱动指标。

三、生产级 AI 平台的核心代码实现

3.1 GPU 拓扑感知调度器扩展

以下是基于 Kubernetes Scheduler Framework 的 GPU 拓扑感知调度插件实现：

package scheduler import ( "context" "fmt" "sort" v1 "k8s.io/api/core/v1" "k8s.io/klog/v2" "k8s.io/kubernetes/pkg/scheduler/framework" ) // GPUTopologySort 插件：优先调度到 GPU 拓扑最优的节点 type GPUTopologySort struct { handle framework.Handle } // GPUDeviceInfo 记录节点上每张 GPU 的拓扑信息 type GPUDeviceInfo struct { Index int NVLinks []int // 与其他 GPU 的 NVLink 连接关系 MemoryGB int Free bool } // NodeGPUState 节点级 GPU 拓扑状态 type NodeGPUState struct { NodeName string GPUs []GPUDeviceInfo } // Less 实现 Pod 节点排序：优先选择多卡 NVLink 互联的节点 func (pl *GPUTopologySort) Less(ctx context.Context, pod *v1.Pod, nodeInfo1, nodeInfo2 *framework.NodeInfo) bool { gpuCount1 := getRequestedGPUCount(pod) gpuCount2 := getRequestedGPUCount(pod) // 单卡推理无需拓扑感知，退化为默认排序 if gpuCount1 <= 1 { return false } // 评估两个节点的 NVLink 覆盖率 score1 := pl.evaluateNVLinkCoverage(nodeInfo1, gpuCount1) score2 := pl.evaluateNVLinkCoverage(nodeInfo2, gpuCount2) if score1 != score2 { return score1 > score2 } // NVLink 覆盖率相同时，优先选择空闲 GPU 更多的节点 return pl.countFreeGPUs(nodeInfo1) > pl.countFreeGPUs(nodeInfo2) } // evaluateNVLinkCoverage 评估节点上指定数量 GPU 的 NVLink 互联程度 func (pl *GPUTopologySort) evaluateNVLinkCoverage( nodeInfo *framework.NodeInfo, requiredGPUs int) int { state := pl.getNodeGPUState(nodeInfo) if state == nil || len(state.GPUs) < requiredGPUs { return 0 // 节点 GPU 数量不足，直接返回最低分 } // 贪心选择 NVLink 连接最密集的 GPU 组合 freeGPUs := make([]GPUDeviceInfo, 0) for _, gpu := range state.GPUs { if gpu.Free { freeGPUs = append(freeGPUs, gpu) } } if len(freeGPUs) < requiredGPUs { return 0 } // 计算最优 GPU 组合的 NVLink 连接数 bestCoverage := 0 combinations := generateCombinations(freeGPUs, requiredGPUs) for _, combo := range combinations { coverage := countNVLinks(combo) if coverage > bestCoverage { bestCoverage = coverage } } return bestCoverage } // countNVLinks 统计一组 GPU 之间的 NVLink 连接总数 func countNVLinks(gpus []GPUDeviceInfo) int { links := 0 for i, gpu := range gpus { for _, linkedGPU := range gpu.NVLinks { for j := i + 1; j < len(gpus); j++ { if gpus[j].Index == linkedGPU { links++ } } } } return links } // generateCombinations 生成从 n 个 GPU 中选 k 个的所有组合 func generateCombinations(gpus []GPUDeviceInfo, k int) [][]GPUDeviceInfo { var result [][]GPUDeviceInfo var backtrack func(start int, combo []GPUDeviceInfo) backtrack = func(start int, combo []GPUDeviceInfo) { if len(combo) == k { copied := make([]GPUDeviceInfo, k) copy(copied, combo) result = append(result, copied) return } for i := start; i < len(gpus); i++ { backtrack(i+1, append(combo, gpus[i])) } } backtrack(0, []GPUDeviceInfo{}) return result } func getRequestedGPUCount(pod *v1.Pod) int { count := 0 for _, container := range pod.Spec.Containers { if val, ok := container.Resources.Limits["nvidia.com/gpu"]; ok { count += int(val.Value()) } } return count } func (pl *GPUTopologySort) getNodeGPUState( nodeInfo *framework.NodeInfo) *NodeGPUState { // 生产环境中从节点注解或 Device Plugin 状态获取 // 此处为简化示意 return nil } func (pl *GPUTopologySort) countFreeGPUs( nodeInfo *framework.NodeInfo) int { state := pl.getNodeGPUState(nodeInfo) if state == nil { return 0 } count := 0 for _, gpu := range state.GPUs { if gpu.Free { count++ } } return count }

3.2 GPU 利用率驱动的自定义 HPA Metrics

package metrics import ( "context" "fmt" "time" autoscalingv2 "k8s.io/api/autoscaling/v2" "k8s.io/metrics/pkg/apis/external_metrics" ) // GPUMetricsAdapter 将 GPU 利用率暴露为 HPA 可消费的 External Metric type GPUMetricsAdapter struct { prometheusAddr string } // GetExternalMetric 查询 Prometheus 获取 GPU 利用率指标 func (a *GPUMetricsAdapter) GetExternalMetric( ctx context.Context, namespace string, metricSelector labels.Selector, info autoscalingv2.ExternalMetricSource, ) (*external_metric.ExternalMetricValueList, error) { metricName := info.Metric.Name switch metricName { case "gpu_utilization_average": return a.queryGPUUtilization(ctx, namespace, metricSelector) case "inference_queue_depth": return a.queryInferenceQueueDepth(ctx, namespace, metricSelector) default: return nil, fmt.Errorf("不支持的指标: %s", metricName) } } // queryGPUUtilization 从 Prometheus 查询指定服务的平均 GPU 利用率 func (a *GPUMetricsAdapter) queryGPUUtilization( ctx context.Context, namespace string, selector labels.Selector) (*external_metric.ExternalMetricValueList, error) { // 构造 PromQL：按服务分组计算 GPU 利用率均值 query := fmt.Sprintf( `avg(DCGM_FI_DEV_GPU_UTIL{namespace="%s"})`, namespace) value, err := a.queryPrometheus(ctx, query) if err != nil { return nil, fmt.Errorf("查询 GPU 利用率失败: %w", err) } return &external_metric.ExternalMetricValueList{ Items: []external_metric.ExternalMetricValue{ { MetricName: "gpu_utilization_average", Value: *resource.NewMilliQuantity(int64(value*1000), resource.DecimalSI), Timestamp: metav1.Now(), }, }, }, nil } // queryPrometheus 执行 PromQL 查询 func (a *GPUMetricsAdapter) queryPrometheus( ctx context.Context, query string) (float64, error) { ctx, cancel := context.WithTimeout(ctx, 10*time.Second) defer cancel() // 调用 Prometheus HTTP API 执行即时查询 // 生产环境中应使用 Prometheus 官方 Go 客户端 _ = ctx return 0, nil }

3.3 模型灰度发布的流量管理

# 基于权重和 Header 的灰度发布策略 apiVersion: gateway.networking.k8s.io/v1beta1 kind: HTTPRoute metadata: name: llm-inference-canary namespace: ai-platform spec: parentRefs: - name: ai-gateway rules: # 金丝雀流量：携带特定 Header 的请求路由到新版本 - matches: - headers: - name: X-Model-Version value: "v2" backendRefs: - name: llm-inference-v2 port: 8000 weight: 100 # 基线流量：按权重分配 - backendRefs: - name: llm-inference-v1 port: 8000 weight: 90 - name: llm-inference-v2 port: 8000 weight: 10

四、架构权衡与边界分析

维度	方案 A：单集群集中式	方案 B：多集群联邦式
调度效率	单次调度延迟低，拓扑信息完整	跨集群调度需额外通信，延迟增加 50–100ms
资源利用率	集群内碎片化风险高	跨集群调度可减少碎片，但需联邦调度器
故障域	单集群故障影响全部服务	故障域隔离，单集群故障仅影响部分流量
运维复杂度	单集群运维简单	多集群联邦运维成本高，需统一认证与监控
GPU 拓扑感知	集群内可精确感知	跨集群无法感知远程 GPU 拓扑

关键权衡一：冷启动与资源预留。模型服务冷启动耗时 30–60 秒，但预留 GPU 实例的成本极高。折中方案是维护一个预热池（Warm Pool），始终保持 1–2 个模型服务实例处于就绪状态，在流量突增时作为缓冲。

关键权衡二：调度精度与调度延迟。GPU 拓扑感知调度需要遍历组合空间，当节点 GPU 数量较多时计算开销显著。生产环境中通常设置组合搜索上限（如最多遍历前 10 个候选节点），在精度和延迟之间取得平衡。

关键权衡三：模型版本迭代与在线稳定性。灰度发布可以降低版本切换风险，但双版本并行意味着双倍 GPU 资源消耗。对于大模型推理服务，建议将灰度窗口控制在 15 分钟以内，快速验证后立即全量切换或回滚。

五、总结

云原生 AI 平台架构设计的核心挑战，在于将 Kubernetes 的通用编排能力与 GPU 资源的特殊性进行深度适配。从模型服务的冷启动优化、GPU 拓扑感知调度、到基于 GPU 利用率的弹性伸缩，每一个环节都需要在通用方案之上做定制化扩展。

落地路线建议：第一步，基于 Kubernetes Scheduler Framework 实现 GPU 拓扑感知调度插件，解决多卡推理的 NVLink 亲和性问题；第二步，通过 Prometheus + Custom Metrics Adapter 暴露 GPU 利用率指标，驱动 HPA 实现推理服务的弹性伸缩；第三步，引入 API Gateway 的灰度发布能力，保障模型版本迭代的在线稳定性。关键原则是——基础设施应该像空气一样，用户感受不到它的存在，但离了它一切都会崩塌。