当前位置：首页 > news >正文

Triton模型服务工程化：高并发AI推理的生产落地实践

news 2026/7/2 6:16:56

1. 项目概述：当模型走出Jupyter，真正开始呼吸真实世界的空气

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号，专为那些在Jupyter里调通了模型、画出了漂亮ROC曲线、却在部署时被现实迎面一拳打懵的工程师准备的。它不是讲怎么写model.fit()，而是讲当你的模型第一次被业务系统调用、第一次在凌晨三点因上游数据格式突变而报错、第一次因为GPU显存被另一个任务悄悄占满而静默失败时，你该抓哪根救命稻草。我带过六支AI工程团队，亲手把超过37个模型从研究环境推到日均处理千万级请求的生产线上，最深的体会是：模型的准确率决定它能不能上线，而它的可观测性、弹性与可维护性，才决定它能在线上活几天。Part 4 这个编号很关键——它意味着前三个部分已经铺好了地基：数据版本控制、特征服务化、模型训练流水线。而这一部分，是真正把“能跑”变成“敢用”的临门一脚：模型服务（Model Serving）的工程化落地。它解决的是最朴素也最致命的问题：当一个Python函数被封装成API，它就不再是你的玩具，而是一个需要24/7待命、能自我诊断、可灰度发布、出问题时能秒级回滚的数字员工。本文不讲抽象理论，只讲我在金融风控、电商推荐、IoT设备预测三个高压力场景中，用真实故障单、监控截图和回滚记录打磨出来的实操路径。无论你是刚跑通第一个XGBoost的算法同学，还是正被SRE同事追着要SLA承诺的平台工程师，这里拆解的每一个参数、每一条日志、每一次超时设置，都来自血泪教训。

2. 核心设计思路：为什么不能直接用Flask裸跑模型？

2.1 从“能跑通”到“敢上线”的三道生死线

很多团队的第一反应是：模型训练完，joblib.load()加载，用Flask写个/predict接口，return jsonify({'score': model.predict(X)})——五分钟搞定，测试OK，上线！然后呢？我在某家银行做风控模型交付时，就亲眼见过这套方案上线后第三天的惨状：上游交易系统传来的JSON里，amount字段突然从整数变成了字符串（因前端SDK升级），Flask接口直接抛ValueError，整个风控网关雪崩，支付成功率掉到63%。根本原因在于，裸Flask服务把所有边界条件都交给了模型代码本身去扛，而模型代码天生不是为处理脏数据、网络抖动、资源争抢而写的。真正的生产服务必须主动设防，这三道线缺一不可：

第一道线：输入契约（Input Contract）
不是“模型能接受什么”，而是“服务承诺接收什么”。比如明确约定amount必须是number类型、范围在[0, 10000000]，超出则返回400 Bad Request并附带具体错误码（如INVALID_AMOUNT_TYPE），而不是让模型内部崩溃。这需要在API网关层或服务入口做强校验，而非依赖模型predict()方法的异常捕获。
第二道线：资源隔离（Resource Isolation）
一个模型进程同时处理100个并发请求时，如果其中3个请求触发了模型内部的全局锁（如某些老版本LightGBM的线程安全缺陷），其余97个请求就会排队阻塞。更糟的是，当服务器上同时跑着TensorFlow Serving和你的Flask服务，TF的GPU内存分配策略可能抢占全部显存，导致你的服务OOM Killed。生产环境必须让每个模型实例拥有独立的CPU核、内存配额、GPU显存切片，且失败时不影响其他实例。
第三道线：健康心跳（Health Heartbeat）
K8s的livenessProbe不能只检查/health端点是否返回200，那只是进程活着；它必须验证模型是否真能推理。我们曾部署一个BERT分类服务，/health永远200，但实际推理时因CUDA上下文初始化失败而卡死。后来改成/health端点内嵌一个轻量级model.predict([[0.1, 0.2]])调用，超时500ms即判为不健康，K8s自动重启——故障恢复时间从小时级降到秒级。

提示：别迷信“简单即美”。Flask裸跑在本地调试时是银弹，在生产环境就是手雷。真正的工程化不是增加复杂度，而是把隐性风险显性化、把偶发故障常态化。

2.2 为什么选Triton Inference Server而非自建方案？

在Part 4的语境下，“Running ML in the Real World”直指高吞吐、低延迟、多框架共存的严苛场景。我们对比过五种主流方案：Flask+Gunicorn、FastAPI+Uvicorn、KServe（原KFServing）、MLflow Models Server、NVIDIA Triton。最终在电商实时推荐场景（峰值QPS 12,000，P99延迟<50ms）选定Triton，核心依据是三个硬指标：

框架无关性（Framework Agnosticism）
同一集群需同时服务：PyTorch的用户画像模型、TensorFlow的点击率预估模型、ONNX Runtime的规则引擎融合模型、甚至自定义C++的特征计算算子。Triton通过统一的模型仓库（Model Repository）管理不同框架的模型，每个模型目录下只需放config.pbtxt配置文件和对应框架的模型文件（如pytorch_model.pt或tensorflow_saved_model_dir/），无需为每个框架写适配层。而自建方案需为每个框架实现独立的推理引擎、内存管理、序列化逻辑，维护成本指数级上升。
动态批处理（Dynamic Batching）
电商搜索请求具有明显波峰波谷，Triton能在毫秒级将多个小请求合并为一个大batch送入GPU，提升吞吐量3-5倍。其dynamic_batching配置允许设置max_queue_delay_microseconds: 1000（最大等待1ms凑batch），preferred_batch_size: [4,8,16]（优先凑成这些尺寸）。我们在压测中发现，当QPS从5000升至10000时，自建FastAPI服务P99延迟从32ms飙升至217ms，而Triton稳定在41ms——差异全在这一毫秒级的batch调度策略。
模型热更新（Model Hot Reload）
业务要求新模型上线零停机。Triton支持model controlAPI，通过curl -X POST http://localhost:8000/v2/repository/models/{model_name}/load即可加载新版本，旧版本请求自然完成，新请求自动路由到新版。我们曾用此特性在黑色星期五期间，17秒内完成推荐模型AB测试切换，全程无任何请求失败。而自建方案需滚动更新Pod，即使K8s配置了maxSurge: 1，切换过程仍有短暂5xx。

注意：Triton并非万能。它对纯CPU推理场景优化有限，且学习曲线陡峭。如果你的模型全是Scikit-learn且QPS<100，用FastAPI+Joblib更轻量。但一旦涉及GPU、多框架、高并发，Triton的工程价值立刻凸显。

2.3 架构分层：把“模型服务”拆成可独立演进的四层

我们最终落地的架构不是单体服务，而是四层解耦设计，每层可独立升级、监控、扩缩容：

层级	组件	职责	可替换性
接入层（Ingress Layer）	NGINX + OpenResty	TLS终止、WAF防护、请求限流（令牌桶）、灰度路由（Header匹配）	高（可换为Traefik或AWS ALB）
网关层（API Gateway）	自研Go网关	输入校验（JSON Schema）、特征预处理（标准化/缺失值填充）、响应组装（添加trace_id）	中（需重写校验逻辑）
服务层（Serving Layer）	NVIDIA Triton Inference Server	模型加载、推理执行、动态批处理、GPU资源调度	低（Triton深度绑定GPU生态）
存储层（Storage Layer）	Redis Cluster + S3	实时特征缓存（Redis）、模型权重/配置（S3）、推理日志（S3归档）	高（Redis可换为Memcached，S3可换为MinIO）

这种分层让故障定位极快：当P99延迟升高，先看接入层NGINX日志确认是否被攻击；再查网关层QPS和校验失败率；若正常，则聚焦服务层Triton的nvmlGPU指标（显存占用、温度、ECC错误）；最后排查存储层Redis连接池耗尽。2023年一次重大故障中，我们3分钟定位到是Redis主节点网络分区导致特征获取超时，而非模型本身问题——这正是分层的价值。

3. 核心细节解析：Triton服务化的12个关键配置项

3.1 模型仓库（Model Repository）的目录结构陷阱

Triton要求所有模型按严格目录结构存放，看似简单，实则暗坑无数。以一个PyTorch用户流失预测模型为例，正确结构如下：

models/ ├── churn_predictor/ │ ├── 1/ # 版本号目录（必须为数字） │ │ ├── model.pt # PyTorch脚本模型（非TorchScript） │ │ └── config.pbtxt # 必须存在，且版本号匹配 │ ├── 2/ │ │ ├── model.pt │ │ └── config.pbtxt │ └── config.pbtxt # 顶层config（可选，用于默认配置）

致命陷阱1：版本号必须是纯数字
曾有团队用v1.2.3作为版本目录名，Triton启动直接报错Invalid version directory name。Triton只认1,2,100这类整数，这是为支持原子化版本切换（创建软链接current -> 2）。解决方案：CI/CD流水线中用date +%s生成时间戳版本号，或用Git commit hash转十进制（如git rev-parse --short HEAD | xargs printf "%d" "'${1:0:1}"）。

致命陷阱2：config.pbtxt的platform字段必须精确匹配
PyTorch模型必须写platform: "pytorch_libtorch"，写成"pytorch"或"torch"均失败。TensorFlow SavedModel必须写platform: "tensorflow_savedmodel"。这个字段是Triton选择推理后端的唯一依据，拼错一个字符就无法加载。我们用YAML模板+Jinja2生成config.pbtxt，强制校验字段值：

# config_template.pbtxt.j2 name: "{{ model_name }}" platform: "{{ platform_map[framework] }}" # 从字典取值，杜绝手误 max_batch_size: {{ max_batch_size }} input [ { name: "INPUT__0" data_type: TYPE_FP32 dims: [{{ input_dim }}] } ] output [ { name: "OUTPUT__0" data_type: TYPE_FP32 dims: [1] } ]

3.2`config.pbtxt`中影响性能的5个魔鬼参数

config.pbtxt表面是静态配置，实则是性能调优的核心战场。以下是我们在真实压测中反复验证的关键参数：

max_batch_size：批处理能力的天花板
设为0表示禁用批处理（每个请求单独推理），设为32表示最多合并32个请求。但这不是越大越好。GPU显存有限，假设单请求需200MB显存，max_batch_size=32则需6.4GB，超出V100的16GB显存余量。我们通过nvidia-smi dmon -s u -d 1监控实际显存占用，将max_batch_size设为16，既保证吞吐又留出4GB余量给CUDA上下文。
dynamic_batching：毫秒级调度的艺术
```
dynamic_batching [ max_queue_delay_microseconds: 1000 preferred_batch_size: [4, 8, 16] ]
```
max_queue_delay_microseconds是核心——设太小（如100μs）凑不到batch，吞吐低；设太大（如10000μs）则延迟高。我们用真实流量做A/B测试：在QPS 8000时，1000μs给出最佳平衡（P99=42ms, 吞吐=11200 QPS）；5000μs虽吞吐升至11800，但P99飙到89ms，违反SLA。
instance_group：GPU资源的精细切片
单卡多模型时必配：
```
instance_group [ [ { kind: KIND_GPU count: 1 gpus: [0] # 绑定到GPU 0 } ] ]
```
若不指定gpus，Triton默认使用所有GPU，导致模型间显存争抢。我们曾因此出现模型A占满GPU0显存，模型B因OOM被K8s杀死。
model_warmup：消除冷启动延迟
```
model_warmup [ { name: "warmup_data" batch_size: 1 inputs: [ { key: "INPUT__0" value: "data/warmup_input.bin" # 预存的二进制输入 } ] } ]
```
Triton启动时自动执行一次warmup推理，初始化CUDA上下文、加载权重到显存。否则首个请求会遭遇200-500ms冷启动延迟。warmup_input.bin需用np.array([0.1,0.2,...]).tobytes()生成，确保数据格式与config.pbtxt中data_type一致。
sequence_batching：时序模型的专属开关
对LSTM/Transformer等需维持状态的模型，必须启用：
```
sequence_batching [ control_input [ { name: "START" control_type: CONTROL_SEQUENCE_START } ] ]
```
并在请求中传入{"START": [1]}标识新序列开始。否则Triton会把不同用户的时序数据混入同一batch，结果完全错误。

实操心得：config.pbtxt不是写一次就完事。每次模型更新（如PyTorch版本升级）、硬件变更（如从V100换A100），都必须重新压测所有参数组合。我们维护了一个参数矩阵表，记录不同QPS下各参数的P99/吞吐/显存占用，作为上线前的Checklist。

3.3 输入/输出张量的序列化：Protobuf vs JSON的抉择

Triton原生支持两种通信协议：HTTP/REST（JSON）和gRPC（Protobuf）。选择依据只有一个：延迟敏感度。

JSON（HTTP）适用场景：

内部服务调用，延迟容忍度>10ms
前端JavaScript直接调用（无需额外序列化库）
调试友好，curl命令可直接测试
示例请求：

curl -X POST http://localhost:8000/v2/models/churn_predictor/infer \ -H "Content-Type: application/json" \ -d '{ "inputs": [{"name": "INPUT__0", "shape": [1,10], "datatype": "FP32", "data": [0.1,0.2,...]}], "outputs": [{"name": "OUTPUT__0"}] }'

Protobuf（gRPC）适用场景：
- 高频内部调用（如推荐系统中特征服务→模型服务）
- 移动端APP直连（减少JSON解析开销）
- P99延迟要求<5ms
  Protobuf二进制序列化比JSON快3-5倍，且体积小60%。但需生成客户端stub（tritonclient库），前端需集成Protobuf解析。我们在iOS APP中用SwiftProtobuf，实测相同请求JSON耗时8.2ms，Protobuf仅2.1ms。

注意：无论选哪种，输入数据必须严格对齐config.pbtxt中定义的shape和datatype。常见错误是Python中np.array([1,2,3])默认int64，但config.pbtxt写TYPE_INT32，Triton直接拒绝。解决方案：发送前强制转换arr.astype(np.int32)。

4. 实操全流程：从模型导出到K8s上线的7个关键步骤

4.1 步骤1：模型导出——不是保存，而是编译

算法同学常以为torch.save(model, 'model.pt')就够了，但生产环境需要的是可移植、可复现、无依赖的模型包。Triton要求PyTorch模型必须是TorchScript格式（.pt），而非Python脚本模型。导出过程实为一次编译：

import torch import torchvision.models as models # 1. 加载训练好的模型（假设已训练完毕） model = models.resnet18(pretrained=False) model.load_state_dict(torch.load("churn_best.pth")) # 2. 切换到eval模式（禁用dropout/batchnorm） model.eval() # 3. 构造示例输入（shape必须与生产一致） example_input = torch.randn(1, 3, 224, 224) # batch=1, channel=3, h=224, w=224 # 4. 使用tracing导出（适用于无控制流的模型） traced_model = torch.jit.trace(model, example_input) # 5. 验证导出模型 with torch.no_grad(): traced_output = traced_model(example_input) original_output = model(example_input) assert torch.allclose(traced_output, original_output, atol=1e-5) # 6. 保存为Triton兼容格式 traced_model.save("models/churn_predictor/1/model.pt")

关键点：

model.eval()必不可少，否则BatchNorm层在推理时仍用运行统计量，结果漂移。
example_input的shape必须与config.pbtxt中dims完全一致，包括batch维度（Triton会自动处理batch，但示例输入需体现单样本结构）。
若模型含if/else或循环，需用torch.jit.script而非trace，但需确保所有分支可静态分析。

4.2 步骤2：构建Triton Docker镜像——精简才是王道

官方nvcr.io/nvidia/tritonserver:23.09-py3镜像体积达2.1GB，包含CUDA全工具链，而生产只需推理运行时。我们基于nvidia/cuda:11.8.0-runtime-ubuntu20.04基础镜像，手动安装最小依赖：

FROM nvidia/cuda:11.8.0-runtime-ubuntu20.04 # 安装Triton核心运行时（非完整版） RUN apt-get update && apt-get install -y \ libglib2.0-0 \ libsm6 \ libxext6 \ libxrender-dev \ && rm -rf /var/lib/apt/lists/* # 复制预编译的Triton二进制（从官方镜像提取） COPY tritonserver /opt/tritonserver/bin/tritonserver COPY libtritonserver.so /opt/tritonserver/lib/ # 复制模型仓库 COPY models/ /models/ # 暴露端口 EXPOSE 8000 8001 8002 # 启动命令 CMD ["/opt/tritonserver/bin/tritonserver", \ "--model-repository=/models", \ "--http-port=8000", \ "--grpc-port=8001", \ "--metrics-port=8002", \ "--log-verbose=1"]

最终镜像仅487MB，启动时间从12秒降至3.2秒，K8s滚动更新效率提升3倍。切记：不要在Dockerfile中RUN apt-get install nvidia-triton-inference-server，那会安装完整开发版，体积翻倍且含冗余组件。

4.3 步骤3：K8s部署——YAML中的生存指南

Triton Pod的YAML不是模板复制，而是生命保障书。以下是核心段落：

apiVersion: apps/v1 kind: Deployment metadata: name: triton-churn spec: replicas: 3 selector: matchLabels: app: triton-churn template: metadata: labels: app: triton-churn annotations: prometheus.io/scrape: "true" prometheus.io/port: "8002" spec: # 关键1：GPU节点亲和性 nodeSelector: kubernetes.io/os: linux cloud.google.com/gke-accelerator: nvidia-tesla-v100 # GKE示例 # 关键2：GPU资源请求（必须与config.pbtxt中gpus匹配） resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 # 关键3：健康探针（必须调用真实推理） livenessProbe: httpGet: path: /v2/health/ready port: 8000 initialDelaySeconds: 60 periodSeconds: 30 timeoutSeconds: 5 # 自定义探针：调用真实推理 exec: command: ["sh", "-c", "curl -f http://localhost:8000/v2/models/churn_predictor/infer -H 'Content-Type: application/json' -d '{\"inputs\":[{\"name\":\"INPUT__0\",\"shape\":[1,10],\"datatype\":\"FP32\",\"data\":[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]}]}' | grep -q 'OUTPUT__0'"] # 关键4：优雅终止（给Triton清理时间） terminationGracePeriodSeconds: 120

避坑要点：

terminationGracePeriodSeconds: 120至关重要。Triton收到SIGTERM后需时间卸载模型、释放GPU显存，设太短（如30秒）会导致OOMKilled残留。
livenessProbe.exec中curl命令必须包含-f（失败时返回非零码）和grep -q，否则探针永远成功。
nodeSelector必须精确匹配GPU型号，混用V100和A100会导致CUDA版本冲突。

4.4 步骤4：网关层接入——让模型服务“懂业务”

Triton是哑巴服务，只认tensor。真实业务需它理解user_id、item_id等语义。网关层承担翻译工作：

// Go网关伪代码 func predictHandler(w http.ResponseWriter, r *http.Request) { // 1. 解析业务请求 var req BusinessRequest json.NewDecoder(r.Body).Decode(&req) // {user_id: "u123", item_id: "i456"} // 2. 查询实时特征（从Redis） features, err := redisClient.HGetAll(ctx, "features:"+req.UserID).Result() if err != nil { http.Error(w, "Feature fetch failed", http.StatusInternalServerError) return } // 3. 构建Triton输入tensor（标准化、缺失填充） inputTensor := buildInputTensor(features, req.ItemID) // 4. 调用Triton gRPC client := tritonclient.NewGRPCClient("triton-service:8001") response, _ := client.Infer(ctx, "churn_predictor", inputTensor) // 5. 组装业务响应 result := BusinessResponse{ UserID: req.UserID, Score: float64(response.Outputs[0].Data[0]), Timestamp: time.Now().Unix(), } json.NewEncoder(w).Encode(result) }

经验技巧：

特征查询必须加context.WithTimeout(ctx, 50*time.Millisecond)，超时直接返回默认特征，避免拖垮整个链路。
buildInputTensor中所有数值必须float32，且按config.pbtxt中INPUT__0顺序排列，错一位结果全错。我们用结构体标签映射：
```
type FeatureVector struct { Amount float32 `tensor:"INPUT__0,0"` Age float32 `tensor:"INPUT__0,1"` // ... 其他字段 }
```

4.5 步骤5：监控告警——看懂Triton的“心电图”

Triton暴露的Prometheus指标是运维的眼睛。我们重点关注以下5个黄金指标：

指标名	说明	告警阈值	排查方向
`nv_gpu_utilization`	GPU利用率	>95%持续5分钟	模型计算密集，需优化或升配
`nv_gpu_memory_used_bytes`	GPU显存占用	>90%	检查`max_batch_size`是否过大或内存泄漏
`triton_inference_request_success`	请求成功率	<99.5%	查`triton_inference_request_failure`原因（输入错误/模型未加载）
`triton_inference_queue_duration_us`	请求排队时间	P99 > 10000μs	`dynamic_batching`配置不当或QPS超限
`triton_inference_compute_duration_us`	纯计算耗时	P99 > 50000μs	模型本身性能问题，需Profile

在Grafana中，我们搭建了“Triton健康看板”，当triton_inference_request_success跌至99.2%，自动触发告警，并关联展示triton_inference_request_failure{failure_code="UNKNOWN"}的Top3错误信息——80%的故障源于UNKNOWN错误，根源是输入tensor shape不匹配。

4.6 步骤6：灰度发布——让新模型“试用期”上岗

新模型上线不走kubectl rollout restart，而是用K8s Service的权重路由：

# Istio VirtualService示例 apiVersion: networking.istio.io/v1beta1 kind: VirtualService metadata: name: triton-router spec: hosts: - triton-service http: - route: - destination: host: triton-churn-v1 weight: 90 - destination: host: triton-churn-v2 # 新模型 weight: 10 # 按Header灰度（如测试账号） - match: - headers: x-user-type: exact: "test" route: - destination: host: triton-churn-v2

实操流程：

新模型部署为triton-churn-v2Deployment，初始weight=0
开放1%流量（weight=1），监控triton_inference_request_success和业务指标（如推荐CTR）
无异常后，每15分钟提升10%权重，直至100%
全量后保留v172小时，随时可切回

我们在一次BERT模型升级中，用此法发现新版本在长文本（>512 tokens）时OOM Killed，在weight=5%时即捕获，避免全量事故。

4.7 步骤7：日志与追踪——给每个请求发“身份证”

Triton默认日志只记录错误，生产需全链路追踪。我们在网关层注入trace_id，并透传给Triton：

# 网关中生成trace_id trace_id = str(uuid.uuid4()) headers = {"trace-id": trace_id} # 调用Triton时透传 response = requests.post( "http://triton-service:8000/v2/models/churn_predictor/infer", headers=headers, data=json.dumps(payload) )

Triton需在启动时开启--log-format=custom，并在config.pbtxt中配置日志字段：

# models/churn_predictor/config.pbtxt ... log_format: "custom" log_verbose: 1 ...

然后通过tritonserver --log-format=custom启动，日志中将包含trace-id字段。结合Jaeger，可完整追踪：APP → Gateway → Triton → Redis，定位耗时瓶颈。曾有一次P99飙升，追踪发现90%时间花在RedisHGETALL，而非模型推理——这才是真相。

5. 常见问题与实战排障：37次故障总结出的速查手册

5.1 “模型加载失败”类问题（占故障62%）

现象	日志关键词	根本原因	解决方案
`Failed to load 'churn_predictor' version 1: Internal: unable to get number of GPUs`	`unable to get number of GPUs`	Pod未申请GPU资源或`nvidia.com/gpu`未正确配置	检查K8s YAML中`resources.limits.nvidia.com/gpu`和`nodeSelector`
`Failed to load 'churn_predictor' version 1: Invalid argument: unexpected platform 'pytorch'`	`unexpected platform`	`config.pbtxt`中`platform`字段拼写错误	严格对照 Triton文档填写
`Failed to load 'churn_predictor' version 1: Internal: unable to load custom library`	`unable to load custom library`	自定义backend（如CUDA算子）编译时CUDA版本与Triton不匹配	用`nvidia-smi`确认GPU驱动版本，选择对应Triton镜像（如驱动515.x用23.03版）

实操心得：首次部署时，务必在Pod内执行nvidia-smi和tritonserver --version，确认驱动、CUDA、Triton三方版本兼容。我们维护了一份《GPU驱动-Triton版本兼容表》，避免踩坑。

5.2 “请求失败”类问题（占故障28%）

现象	日志关键词	根本原因	解决方案
`HTTP 400 Bad Request: expected 1 inputs, got 0`	`expected 1 inputs, got 0`	请求JSON中`inputs`数组为空或字段名与`config.pbtxt`不匹配	用`jq`校验请求：`echo $REQ
`HTTP 503 Service Unavailable: model 'churn_predictor' is not ready`	`is not ready`	模型加载中，但`livenessProbe`过早触发	增加`initialDelaySeconds`至120秒，或改用`exec`探针调用`/v2/models/churn_predictor/ready`
`gRPC error: UNAVAILABLE: failed to connect to all addresses`	`UNAVAILABLE`	Triton gRPC端口（8001）未暴露或Service未配置	检查K8s Service中`ports[1].port`是否为8001，且`targetPort`匹配

注意：所有400/500错误必须返回结构化错误码，如{"error": {"code": "INVALID_INPUT_SHAPE", "message": "Expected shape [1,10], got [1,11]"}}，方便前端精准降级。

5.3 “性能劣化”类问题（占故障10%）

现象	监控指标异常	根本原因	解决方案
P99延迟突增，`nv_gpu_utilization`<30%	GPU利用率低但延迟高	Triton未启用`dynamic_batching`，或`max_queue_delay_microseconds`设太小	检查`config.pbtxt`，启用`dynamic_batching`并设`max_queue_delay_microseconds: 1000`
吞吐量上不去，`triton_inference_queue_duration_us`P99>50000μs	排队时间长	QPS超过单卡处理能力，需水平扩展	增加Deployment副本数，并配置K8s HPA基于`triton_inference_request_success`指标扩缩容
`nv_gpu_memory_used_bytes`缓慢上涨	显存持续增长	模型存在内存泄漏（如PyTorch中未释放`torch.no_grad()`上下文）	用`nvidia-smi -q -d MEMORY`监控，重启Pod后观察是否复现，定位模型代码