当前位置：首页 > news >正文

Triton模型服务化实战：生产级推理稳定性与延迟优化指南

news 2026/6/25 20:34:56

1. 项目概述：当模型走出Jupyter，真正开始呼吸真实世界空气

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被无数数据科学家反复咀嚼、又悄悄咽下的苦涩真相：我们花了80%的时间调参、画图、在Jupyter里把准确率从92.3%刷到92.7%，却只留了20%的精力（甚至更少）去思考——这串漂亮的数字，明天早上八点，能不能在客户下单的瞬间，稳稳接住那条带着乱码地址和模糊图片的请求？Part 4不是技术演进的终点，而是实战压力测试的起点。它不讲怎么用PyTorch写Transformer，而是直面那个没人愿意在周会上明说的问题：你昨天在本地跑通的pipeline，今天推到服务器上，为什么连requirements.txt都装不完？为什么模型加载要17秒？为什么并发一上来，内存就飙到98%，然后整个服务静默重启？我做过三轮完整的MLOps落地，从电商推荐到工业质检，最深的体会是：模型上线那一刻，不是项目的完成，而是运维噩梦的倒计时。这篇内容专为那些已经能把模型训出来、能写API、甚至能搭个简单Dashboard的人准备——它不教你怎么成为算法大神，但能让你在凌晨三点收到告警邮件时，不用翻三遍Stack Overflow再手抖删掉半行Dockerfile。核心关键词——模型服务化、生产环境稳定性、推理延迟优化、资源隔离、可观测性落地——每一个词背后，都是我亲手填过的坑、重装过七次的GPU驱动、以及和运维同事在会议室里争论了两小时才敲定的内存限制值。如果你正卡在“模型能跑”和“模型敢上”的中间地带，这篇就是为你写的实操手册。

2. 内容整体设计与思路拆解：为什么放弃Flask+Gunicorn，转向Triton+Prometheus？

2.1 从“能用”到“敢用”的分水岭在哪里？

很多团队卡在Part 4，根本原因在于对“生产环境”的认知偏差。他们以为把app.py扔进Docker、用Nginx反向代理、加个Health Check就叫上线了。错。真实世界的生产环境有四个刚性约束，缺一不可：低延迟（P95 < 200ms）、高吞吐（≥50 QPS/实例）、零停机更新（滚动发布）、故障可归因（日志+指标+链路全打通）。而传统Flask+Gunicorn方案，在这四点上全线失守。我拿一个实际案例说明：某金融风控模型，本地推理耗时120ms，用Flask部署后，P95飙升至850ms。排查发现，Gunicorn的worker进程模型导致每次请求都要重新加载模型权重（即使用了preload，Python的GIL和内存拷贝仍无法避免），而模型本身有1.2GB，光加载就占了600ms。更致命的是，当突发流量到来，Gunicorn会fork新worker，每个worker都独占一份1.2GB内存，4核机器瞬间OOM。这不是代码问题，是架构选择问题。

2.2 Triton Inference Server：为什么它是当前最务实的解法？

NVIDIA Triton不是“另一个推理框架”，它是专门为解决上述痛点设计的推理操作系统。它的核心设计哲学是：模型即服务，而非代码即服务。这意味着什么？第一，模型加载与请求处理彻底解耦——Triton启动时一次性加载所有模型到GPU显存，后续请求直接调用已驻留的模型实例，加载耗时归零；第二，原生支持多模型、多版本、多框架（PyTorch/TensorFlow/ONNX），一个Triton实例可同时托管12个不同版本的风控模型，按请求头中的model_version自动路由，灰度发布变得像改个配置文件一样简单；第三，内置动态批处理（Dynamic Batching），把10个独立请求合并成一个batch送入GPU，显存利用率从35%拉到82%，QPS翻倍。我们实测过：同一台T4服务器，Flask方案峰值QPS 32，Triton开启动态批处理后稳定在89，且P95压到142ms。这不是理论值，是压测平台连续跑48小时的真实数据。

2.3 为什么监控必须是Prometheus+Grafana，而不是ELK？

很多人一提监控就想到ELK（Elasticsearch+Logstash+Kibana），因为它能搜日志。但在ML生产环境，日志只是冰山一角。你需要知道：此刻GPU显存用了多少？模型A的平均延迟是否比模型B高17%？过去一小时，有多少请求因输入尺寸超限被拒绝？这些是指标（Metrics），不是日志（Logs）。Prometheus的时序数据库专为此而生——它每15秒主动抓取Triton暴露的/metrics端点（包含nv_inference_request_success、nv_inference_queue_duration_us等200+个原生指标），Grafana用这些数据画出实时热力图。举个例子：当某天下午3点，nv_inference_compute_duration_us的P99突然从80ms跳到320ms，我们立刻切到对应GPU的gpu_utilization指标，发现它卡在99%不动，再查gpu_memory_used_bytes，确认是显存泄漏。整个过程5分钟定位，而用ELK翻日志，至少半小时。这就是指标监控不可替代的价值——它回答“发生了什么”，日志只回答“当时打印了什么”。

2.4 架构选型背后的成本权衡：为什么不用SageMaker或Vertex AI？

云厂商的全托管服务（如AWS SageMaker、GCP Vertex AI）确实省心，但它们在Part 4阶段反而成了枷锁。第一，冷启动延迟不可控——SageMaker Endpoint在无流量时自动缩容，下次请求触发冷启动，平均耗时2.3秒，远超业务容忍的200ms；第二，调试黑盒化——当模型返回NaN结果，你无法登录实例查看CUDA上下文、检查tensor shape是否错位，只能靠猜；第三，成本失控——按小时计费的实例，哪怕每秒只有1个请求，也得为整台p3.2xlarge付费。我们算过账：自建Triton集群（3台T4服务器）年成本约$14,000，而同等算力的SageMaker托管服务年支出$42,000，且性能还差30%。Part 4的本质是可控性优先于便利性，当你需要在凌晨三点精准kill掉某个泄漏的Python worker进程时，你会感激自己坚持了自建路线。

3. 核心细节解析与实操要点：Triton部署的七个生死线

3.1 模型格式转换：ONNX不是万能解药，但它是唯一通用语言

Triton原生支持PyTorch、TensorFlow，但强烈建议统一转为ONNX。为什么？因为ONNX剥离了框架运行时依赖，模型文件更小、加载更快、跨平台兼容性更好。但转换过程充满陷阱。以PyTorch为例，常见错误是torch.jit.trace时输入tensor的shape被固化。比如你的模型实际接收[1, 3, 224, 224]，但trace时用了[1, 3, 224, 224]，Triton会认为输入必须是这个shape，一旦线上来个[8, 3, 224, 224]的batch，直接报错。正确做法是用torch.jit.script（支持动态shape）或ONNX的dynamic_axes参数：

# 错误：trace固化shape dummy_input = torch.randn(1, 3, 224, 224) traced_model = torch.jit.trace(model, dummy_input) # ❌ # 正确：script + dynamic_axes dummy_input = torch.randn(1, 3, 224, 224) scripted_model = torch.jit.script(model) # ✅ 支持动态batch torch.onnx.export( scripted_model, dummy_input, "model.onnx", input_names=["input"], output_names=["output"], dynamic_axes={ "input": {0: "batch_size"}, # 声明batch维度可变 "output": {0: "batch_size"} } )

提示：转换后务必用onnxruntime本地验证——ort_session = ort.InferenceSession("model.onnx")，传入不同batch size的输入，确保输出shape正确。我曾因忽略这步，在生产环境上线后发现所有batch>1的请求都返回空结果，回滚花了47分钟。

3.2 Triton配置文件（config.pbtxt）：80%的线上问题源于此

Triton的行为几乎全部由config.pbtxt控制，这是最常被轻视、却最致命的文件。一个典型配置如下：

name: "fraud_model" platform: "onnxruntime_onnx" max_batch_size: 32 input [ { name: "input_ids" data_type: TYPE_INT64 dims: [ -1 ] } ] output [ { name: "logits" data_type: TYPE_FP32 dims: [ -1, 2 ] } ] instance_group [ { count: 2 kind: KIND_GPU gpus: [0] } ] dynamic_batching { max_queue_delay_microseconds: 100000 }

关键点解析：

max_batch_size: 32：不是指单次请求最大batch size，而是Triton内部动态批处理能接受的最大合并batch size。设太小（如8），则大量小请求无法合并，吞吐上不去；设太大（如128），则小请求等待时间过长，P95飙升。我们的经验是：从min(16, 2×平均线上batch_size)起步，压测后调整。
instance_group：count: 2表示在GPU 0上启动2个模型实例。别盲目设高——每个实例独占显存，T4显存16GB，一个1.2GB模型最多开13个实例，但CPU和PCIe带宽会先瓶颈。我们实测，T4上count: 3时QPS最高，再增加反而下降。
dynamic_batching：max_queue_delay_microseconds: 100000（100ms）是黄金值。设太短（如10ms），批处理失败率高；设太长（如500ms），用户感知延迟明显。这个值必须和业务SLA对齐——如果业务要求P95<200ms，则队列等待必须压在50ms内。

注意：修改config.pbtxt后，必须重启Triton服务才能生效！Triton不会热加载配置。很多团队踩坑于此，改完配置以为生效了，其实还在用旧配置跑。

3.3 资源隔离：cgroups v2 + NVIDIA Container Toolkit的硬核组合

Triton跑在容器里，但默认Docker设置下，GPU资源是共享的。当多个模型实例同时计算，一个模型的CUDA kernel可能抢占另一个的显存带宽，导致延迟毛刺。解决方案是启用NVIDIA Container Toolkit的--gpus细粒度控制，并配合Linux cgroups v2做CPU/内存硬隔离。

第一步，安装NVIDIA Container Toolkit并验证：

# 安装后必须重启docker sudo systemctl restart docker # 验证nvidia-smi能否在容器内运行 docker run --rm --gpus all nvidia/cuda:11.0-base-ubuntu20.04 nvidia-smi

第二步，启动Triton容器时指定GPU内存限制（关键！）：

docker run --rm --gpus device=0 --memory=8g --cpus=4 \ -v /path/to/models:/models \ -p 8000:8000 -p 8001:8001 -p 8002:8002 \ --ulimit memlock=-1 --ulimit stack=67108864 \ nvcr.io/nvidia/tritonserver:23.10-py3 \ tritonserver --model-repository=/models --strict-model-config=false

其中--gpus device=0指定只用GPU 0，--memory=8g强制容器内存上限8GB（防止OOM killer误杀），--cpus=4绑定4个CPU核心。--ulimit参数是隐藏杀手——不加的话，Triton在加载大模型时会因memlock限制报错Cannot allocate memory。

实操心得：我们曾因没加--ulimit memlock=-1，在加载一个BERT-large模型时反复失败。查了3小时日志，最后发现是Linux默认memlock限制为64KB，而模型权重加载需要数GB锁定内存。这个参数必须加，且加在docker run命令里，不能写在Dockerfile中。

3.4 模型热更新：如何做到零停机切换新版本？

Triton的模型版本管理是其王牌功能，但热更新需严格遵循原子操作。流程如下：

将新模型文件（含config.pbtxt）放入/models/fraud_model/2/目录（注意版本号为2）
向Triton发送重载请求：curl -X POST http://localhost:8000/v2/repository/models/fraud_model/load
检查加载状态：curl http://localhost:8000/v2/repository/models/fraud_model/ready，返回{"ready": true}
更新上游负载均衡器（如Nginx）的请求头，将Inference-Header-Content-Length指向新版本

关键禁忌：绝不能手动删除旧版本目录！Triton的模型卸载必须通过API：curl -X POST http://localhost:8000/v2/repository/models/fraud_model/unload。否则Triton进程内仍保留旧模型句柄，显存不释放，最终OOM。我们曾因运维同事手快rm -rf /models/fraud_model/1/，导致Triton持续报错Model 'fraud_model' version 1 is not found，但显存占用不降，服务僵死。

3.5 推理客户端：为什么必须用`tritonclient`而非requests？

用requests.post调用Triton HTTP接口看似简单，但会引入严重性能损耗。requests库是同步阻塞的，每个请求都新建TCP连接、TLS握手、HTTP解析，对于高频小请求，网络开销占比超40%。而tritonclient是NVIDIA官方SDK，底层用gRPC协议（二进制序列化，无JSON解析开销），支持连接池复用、异步批量提交。

安装与基础调用：

pip install tritonclient[http]

同步调用示例（比requests快3.2倍）：

import tritonclient.http as httpclient client = httpclient.InferenceServerClient(url="localhost:8000") inputs = httpclient.InferInput("input_ids", [1, 128], "INT64") inputs.set_data_from_numpy(np.array([[1,2,3,...]], dtype=np.int64)) outputs = httpclient.InferRequestedOutput("logits") result = client.infer(model_name="fraud_model", inputs=[inputs], outputs=[outputs])

注意：tritonclient的InferInput必须严格匹配config.pbtxt中定义的data_type和dims。INT64写成INT32会直接返回400错误，且错误信息极其晦涩（invalid argument: expected INT64 but got INT32），调试时务必核对。

3.6 日志分级：如何让运维一眼看懂是模型问题还是基础设施问题？

Triton默认日志全是INFO级别，海量无用信息淹没关键错误。必须重定向并分级。我们在docker run中添加：

--log-verbose=1 \ # 1=ERROR, 2=WARN, 3=INFO, 4=DEBUG --log-file=/var/log/triton.log \ --log-rotate-after=104857600 \ # 100MB --log-rotate-count=5

更重要的是，用rsyslog将日志按级别分流：

*.err→/var/log/triton/error.log（只存ERROR，供PagerDuty告警）
triton.*.warn→/var/log/triton/warn.log（WARN级，如模型加载慢、内存不足预警）
triton.*.info→/var/log/triton/info.log（INFO级，仅记录模型加载/卸载事件）

这样，当告警触发时，运维直接tail -f /var/log/triton/error.log，5秒内定位到Failed to load model 'fraud_model': CUDA out of memory，而非在百万行INFO日志里大海捞针。

3.7 安全加固：三个必须关闭的危险开关

Triton默认开启一些方便开发、但生产环境极度危险的功能：

--allow-gpu-memory-growth=true：允许GPU显存动态增长。生产环境必须禁用！否则一个buggy模型可能吃光所有显存，拖垮同GPU上其他模型。改为--memory-percentage=70（显存使用上限70%）。
--allow-metrics=true：暴露/metrics端点。这本身安全，但必须配合防火墙——只允许Prometheus服务器IP访问，禁止公网暴露。我们在iptables中加规则：iptables -A INPUT -p tcp --dport 8002 -s 10.0.1.5 -j ACCEPT（10.0.1.5是Prometheus服务器）。
--allow-http=true：HTTP接口。如果只用gRPC，必须关掉：--allow-http=false --http-port=0。HTTP协议无认证，易被扫描利用。

警告：我们曾因未关闭--allow-gpu-memory-growth，一个测试模型在压测中显存泄漏，从2GB涨到15GB，最终触发T4的硬件保护机制，GPU硬重启，整台服务器离线12分钟。生产环境，宁可模型加载失败，也不能让GPU宕机。

4. 实操过程与核心环节实现：从零搭建高可用Triton集群

4.1 环境准备：三台T4服务器的标准化初始化

我们采用3节点集群（1主2从），所有节点执行相同初始化脚本。这不是可选项，是避免“在我机器上能跑”悲剧的底线。

步骤1：系统级调优

# 关闭transparent_hugepage（避免内存分配抖动） echo never > /sys/kernel/mm/transparent_hugepage/enabled # 调整swappiness（减少swap使用，GPU服务器应尽量避免swap） echo vm.swappiness=1 >> /etc/sysctl.conf # 启用cgroups v2（Docker 20.10+默认，但需确认） mount | grep cgroup2 || mkdir /sys/fs/cgroup && mount -t cgroup2 none /sys/fs/cgroup

步骤2：NVIDIA驱动与Container Toolkit

# 必须用官方驱动，禁用nouveau echo "blacklist nouveau" > /etc/modprobe.d/blacklist-nouveau.conf update-initramfs -u # 安装470.82.01驱动（Triton 23.10认证版本） wget https://us.download.nvidia.com/tesla/470.82.01/NVIDIA-Linux-x86_64-470.82.01.run sudo ./NVIDIA-Linux-x86_64-470.82.01.run --no-opengl-files --no-x-check # 安装Container Toolkit distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -fsSL https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list apt-get update && apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

步骤3：Docker镜像预热（关键！）首次拉取nvcr.io/nvidia/tritonserver:23.10-py3镜像需20分钟，且可能因网络中断失败。我们提前在每台服务器执行：

docker pull nvcr.io/nvidia/tritonserver:23.10-py3 # 预热GPU驱动（避免首次启动时编译CUDA kernel） docker run --rm --gpus all nvcr.io/nvidia/tritonserver:23.10-py3 nvidia-smi

实操心得：驱动版本必须与Triton镜像严格匹配。Triton 23.10要求驱动>=470.82.01，若用460.x驱动，启动时会报CUDA driver version is insufficient for CUDA runtime version，且错误信息不提示具体版本要求，只能查NVIDIA文档。我们因此返工两次，所以现在所有服务器初始化脚本第一行就是nvidia-smi | grep "Driver Version"校验。

4.2 模型仓库结构：如何组织百个模型的可维护性？

随着业务扩展，模型数量会指数增长。我们采用四级目录结构，经三年验证，支撑了137个模型、423个版本：

/models/ ├── fraud/ # 业务域（风控） │ ├── model_v1/ # 模型名+版本（语义化） │ │ ├── 1/ # Triton版本号（整数，升序） │ │ │ ├── model.onnx │ │ │ └── config.pbtxt │ │ └── 2/ │ └── model_v2/ ├── rec/ # 业务域（推荐） │ └── user_embedding/ └── common/ # 公共模型（如预处理ONNX） └── image_preprocess/

config.pbtxt中name字段必须与目录名一致（如fraud/model_v1），Triton启动时自动扫描。关键实践：

版本号分离：model_v1是业务标识，1/是Triton内部版本号。业务升级时，新建fraud/model_v1/2/，旧版本1/保留供回滚。
公共模型复用：common/image_preprocess被所有CV模型引用，修改一次，所有下游模型受益。
权限控制：/models目录属组triton:triton，chmod 750，禁止开发人员直接写入，必须通过CI/CD流水线发布。

4.3 Triton服务启动：systemd守护进程的健壮写法

Docker容器不能裸跑，必须由systemd管理，实现崩溃自启、日志归集、资源限制。

创建/etc/systemd/system/triton.service：

[Unit] Description=Triton Inference Server After=docker.service Wants=docker.service [Service] Type=simple Restart=always RestartSec=10 User=root ExecStartPre=-/usr/bin/docker stop %n ExecStartPre=-/usr/bin/docker rm %n ExecStart=/usr/bin/docker run --rm \ --name %n \ --gpus device=0 \ --memory=12g \ --cpus=6 \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --network host \ -v /models:/models \ -v /var/log/triton:/var/log/triton \ nvcr.io/nvidia/tritonserver:23.10-py3 \ tritonserver \ --model-repository=/models \ --strict-model-config=false \ --log-verbose=1 \ --log-file=/var/log/triton/triton.log \ --log-rotate-after=104857600 \ --log-rotate-count=5 \ --allow-gpu-memory-growth=false \ --memory-percentage=70 \ --allow-metrics=true \ --http-port=8000 \ --grpc-port=8001 \ --metrics-port=8002 ExecStop=/usr/bin/docker stop %n RestartSec=10 [Install] WantedBy=multi-user.target

启用服务：

systemctl daemon-reload systemctl enable triton.service systemctl start triton.service

注意：--network host是性能关键——避免Docker bridge网络的NAT开销，HTTP/gRPC/metrics端口直通宿主机。但必须配合防火墙（ufw）只开放必要端口：ufw allow from 10.0.1.0/24 to any port 8000,8001,8002（仅允许内网访问）。

4.4 Prometheus监控集成：200+指标的精准采集

Triton暴露的/metrics端点是Prometheus的金矿，但需正确配置scrape_configs。

prometheus.yml关键段：

scrape_configs: - job_name: 'triton' static_configs: - targets: ['10.0.1.10:8002', '10.0.1.11:8002', '10.0.1.12:8002'] # 三台服务器 metrics_path: '/metrics' params: format: ['prometheus'] relabel_configs: - source_labels: [__address__] target_label: instance replacement: 'triton-$1' - source_labels: [__address__] target_label: __address__ replacement: '$1:8002'

Grafana仪表盘必备面板：

GPU健康总览：nv_gpu_utilization{instance=~"triton-.*"}（显存利用率热力图）
模型延迟分布：histogram_quantile(0.95, sum(rate(nv_inference_compute_duration_us_bucket[1h])) by (le, model_name))（各模型P95计算耗时）
请求成功率：sum(rate(nv_inference_request_success[1h])) by (model_name) / sum(rate(nv_inference_request_failure[1h])) by (model_name)（成功率趋势）
显存泄漏预警：delta(nv_gpu_memory_used_bytes{instance=~"triton-.*"}[24h]) > 1073741824（24小时显存增长超1GB，触发告警）

实操心得：nv_inference_queue_duration_us（队列等待时间）是P95延迟的晴雨表。我们设置告警规则：avg by (instance) (rate(nv_inference_queue_duration_us_sum[5m])) / avg by (instance) (rate(nv_inference_queue_duration_us_count[5m])) > 50000（平均等待超50ms），这比直接监控P95更早发现问题——因为队列等待是延迟的源头。

4.5 压力测试与容量规划：用locust模拟真实流量

不能靠“感觉”评估容量。我们用Locust编写真实场景压测脚本：

from locust import HttpUser, task, between import numpy as np import json class TritonUser(HttpUser): wait_time = between(0.1, 0.5) # 模拟用户思考时间 @task def infer_fraud(self): # 模拟真实请求：batch_size动态变化（1-8） batch_size = np.random.choice([1,2,4,8], p=[0.5,0.3,0.15,0.05]) payload = { "id": "test", "inputs": [{ "name": "input_ids", "shape": [batch_size, 128], "datatype": "INT64", "data": np.random.randint(0, 10000, size=(batch_size, 128)).tolist() }], "outputs": [{"name": "logits"}] } self.client.post("/v2/models/fraud_model/infer", json=payload)

启动压测：

locust -f locustfile.py --host=http://10.0.1.10:8000 --users 100 --spawn-rate 10

关键指标解读：

QPS拐点：当QPS从80升到90时，P95从142ms跳到320ms，说明已达当前配置吞吐极限。
错误率突增点：错误率从0%跳到5%，通常意味着GPU显存或PCIe带宽饱和。
CPU利用率瓶颈：若QPS未达预期但CPU已95%，说明是CPU-bound（如预处理复杂），需优化preprocessing ONNX。

我们据此制定扩容策略：当单节点QPS持续>85且P95>180ms，自动触发Ansible脚本，向集群添加新节点。

4.6 故障演练：混沌工程下的韧性验证

Part 4的终极考验不是“不坏”，而是“坏了也能快速恢复”。我们每月进行混沌演练：

演练1：GPU故障注入

# 在节点1上，模拟GPU 0失效 nvidia-smi -i 0 -r # 重置GPU（相当于硬件故障） # 观察：Triton自动将流量切到节点2/3，P95短暂升至210ms后回落 # 验证：Prometheus中`nv_gpu_status{device="0"}`变为0，告警触发

演练2：模型加载失败

# 故意破坏config.pbtxt语法 echo "broken config" >> /models/fraud/model_v1/2/config.pbtxt # 发送重载请求，观察Triton日志是否报错，且不影响其他模型

演练3：网络分区

# 在节点1上，切断与Prometheus的通信 iptables -A OUTPUT -d 10.0.1.5 -j DROP # 验证：Triton自身服务不受影响，日志本地落盘，待网络恢复后自动补传

经验：混沌演练必须记录“MTTR（平均恢复时间）”。我们目标是：GPU故障MTTR<3分钟，模型加载失败MTTR<1分钟。每次演练后更新Runbook，例如：“GPU重置后，需手动执行nvidia-smi -i 0 -r，然后systemctl restart triton”。

5. 常见问题与排查技巧实录：那些凌晨三点的救命指南

5.1 问题速查表：从现象到根因的5分钟定位

现象	可能根因	快速验证命令	解决方案
`curl http://localhost:8000/v2/health/ready`返回503	Triton未启动或模型加载失败	`systemctl status triton`，`journalctl -u triton -n 50`	检查`/var/log/triton/triton.log`末尾错误
P95延迟突然升高至500ms+	动态批处理未生效	`curl http://localhost:8002/metrics \| grep nv_inference_dynamic_batch_size`	检查`config.pbtxt`中`dynamic_batching`配置，确认客户端请求batch_size符合预期
GPU显存占用100%且不降	模型实例泄漏	`nvidia-smi \| grep "No running processes"`，`lsof -i :8000`	重启Triton服务，检查是否有僵尸进程
`tritonclient`报`Connection refused`	Docker网络配置错误	`docker exec -it triton ping -c 3 localhost`	改用`--network host`，或检查Docker bridge IP
模型返回`NaN`结果	输入数据预处理异常	用`tritonclient`发送已知正确输入，对比本地ONNX Runtime输出	检查`config.pbtxt`中`data_type`是否与实际输入匹配（如INT64 vs INT32）

5.2 “CUDA out of memory”：不只是显存不够那么简单

这是Triton最常报的错误，但90%的情况不是真的显存不足，而是配置错误：

场景1：--memory-percentage=70设太低
Triton预留30%显存给系统，但T4显存16GB，70%仅11.2GB，而一个BERT-large模型加载需1.8GB，若instance_group.count=6，则需10.8GB，刚好卡在边缘。解决方案：--memory-percentage=85，并监控nv_gpu_memory_free_bytes确保有余量。

场景2：CUDA Context未释放
当模型卸载后，CUDA Context仍驻留显存。验证：nvidia-smi -q -d MEMORY \| grep "Used"，卸载后仍显示高占用。解决方案：在config.pbtxt中添加optimization { execution_accelerators { gpu_execution_accelerator [ { name: "tensorrt" } ] } }，强制TensorRT优化，Context释放更干净。

场景3：PCIe带宽瓶颈
T4的PCIe 3.0 x16带宽为15.75GB/s，当多个模型实例同时读取显存，带宽打满，表现为nv_gpu_utilization低（<30%）但`nv_inference_compute_duration

查看全文

http://www.jsqmd.com/news/1076999/