当前位置：首页 > news >正文

机器学习模型生产化：从Notebook到高可用ML服务的落地实践

news 2026/6/7 6:04:20

1. 项目概述：当模型走出Jupyter，真正开始呼吸真实世界的空气

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号，专为那些在Jupyter里调通了模型、画出了漂亮ROC曲线、却在部署时被生产环境一记闷棍打懵的工程师准备的。它不是讲怎么写model.fit()，而是讲当你的PyTorch模型第一次被Docker容器拉起、被Kubernetes调度到一台没装过CUDA的节点上、被上游API以每秒200次QPS压测、又被下游数据库因字段类型不匹配而默默丢弃预测结果时，你该抓哪根日志、改哪行配置、骂哪句脏话才最有效。我做过7个从零到上线的ML服务，其中4个在Part 3就死在了CI/CD流水线里，剩下3个活到Part 4的，全靠把“模型即服务”这五个字拆成37个具体动作来执行。它解决的核心问题非常朴素：为什么90%的机器学习项目从未真正产生业务价值？答案不在算法精度，而在模型与生产系统之间那层薄如蝉翼、却硬如钢板的隔膜。适合谁？不是刚学完scikit-learn的新人，而是已经能手写DataLoader、会看GPU显存溢出报错、但看到kubectl get pods就手心冒汗的中级ML工程师；也适合技术负责人——当你需要向CTO解释为什么“模型准确率98%”和“线上A/B测试提升0.3%”之间存在一个价值黑洞时，Part 4就是那张必须摊开的地图。关键词“Notebook to Production”、“ML in the Real World”、“Part 4”共同指向一个残酷共识：前3部分讲的是“如何让模型跑起来”，而这一部分讲的是“如何让模型持续、稳定、可归因、可迭代地跑下去”。它不承诺银弹，只提供一套经过6家不同规模公司验证的、带着油污和日志痕迹的实操手册。

2. 内容整体设计与思路拆解：放弃“完美模型”，拥抱“可运维模型”

2.1 为什么Part 4是生死线？——从三个真实故障反推设计逻辑

很多团队把Part 4当成“模型训练完之后的收尾工作”，这是最致命的认知偏差。我亲眼见过一家电商公司，其推荐模型在离线评估AUC达0.89，上线后首周CTR反而下降12%。根因排查耗时17天，最终发现：训练时用的是用户最近30天行为日志，而线上特征服务因缓存策略缺陷，实际供给的是72小时前的快照数据——时间窗口偏移导致特征分布漂移，模型在“预测昨天的用户”，而非“预测现在的用户”。这个案例直接定义了Part 4的设计原点：所有设计决策必须以“可观测性”为第一优先级，其次才是性能，最后才是开发效率。我们放弃“一次性部署”的幻想，转而构建一个“模型生命周期闭环”，其核心骨架由四个不可分割的环组成：

特征一致性环：确保训练、验证、线上推理使用的特征生成逻辑、版本、时间窗口完全一致；
服务契约环：明确定义模型输入/输出的数据Schema、延迟SLA、错误码语义，而非依赖文档或口头约定；
监控归因环：不仅监控CPU/GPU利用率，更要监控特征分布、预测置信度分布、标签-预测偏差（Label-Prediction Drift）；
回滚演进环：任何模型更新必须支持秒级回滚，并自动触发A/B测试分流与效果归因。

这个设计不是凭空而来。它源于对三个高频故障的深度复盘：

故障1：“模型越训越准，线上越推越差” → 暴露特征管道断裂；
故障2：“新模型上线后报警狂响，但指标无异常” → 暴露监控维度缺失；
故障3：“紧急回滚旧模型，却发现旧版本代码已丢失” → 暴露版本管理失效。

因此，Part 4的架构选择全部服务于这四个环的强健性。例如，我们坚持用Feature Store作为唯一特征源，而非让每个服务自己拼SQL；坚持用OpenAPI 3.0规范定义模型服务接口，自动生成客户端SDK与Mock服务；坚持将模型版本、特征版本、数据版本三者绑定为原子发布单元，杜绝“模型新、特征旧”的经典陷阱。这些选择看似增加了初期复杂度，但实测下来，将平均故障定位时间（MTTD）从4.2小时压缩至11分钟，这才是真正的效率。

2.2 工具链选型：为什么不用MLflow？为什么必须用Prometheus？

工具链不是技术炫技，而是故障防御工事。Part 4的工具选型严格遵循“最小必要原则”：只引入能直接加固上述四个环的组件，且每个组件必须满足“非替代性”——即没有它，某个环就会出现无法弥补的裂缝。

模型注册与版本管理：我们弃用MLflow的Model Registry，转而采用S3 + 自研元数据服务。原因很现实：MLflow的Registry依赖其后端数据库，一旦DB挂掉，整个模型发现机制瘫痪；而S3是对象存储，天然高可用，配合ETag校验可保证模型文件完整性。我们的元数据服务仅存储JSON格式的版本清单（含模型哈希、特征版本ID、训练数据范围、负责人、上线时间），轻量且可水平扩展。实测在单集群50+模型、日均12次发布的压力下，查询延迟稳定在8ms内。
特征管理：选用Feast 0.27而非Tecton或Hopsworks。关键在于Feast的“Online Store + Offline Store”双存储设计，完美支撑特征一致性环。Offline Store（如BigQuery）用于训练时批量读取历史特征，Online Store（如Redis）用于线上实时查特征。我们强制要求所有特征定义必须通过Feast的FeatureView DSL声明，确保训练脚本与线上服务使用同一份特征逻辑代码。曾有团队试图绕过Feast直接连Redis取特征，结果因Redis数据过期策略与训练时长不匹配，导致线上特征为空值，引发大面积预测失败——这个坑让我们把“禁止直连Online Store”写进了团队红线。
监控告警：坚决不用Grafana Cloud或Datadog的黑盒方案，而是Prometheus + 自研Exporter + Alertmanager。原因在于：黑盒监控只能告诉你“CPU爆了”，但无法告诉你“为什么爆”。我们开发了专用的ML Exporter，它嵌入模型服务进程，主动暴露三类指标：
- ml_prediction_latency_seconds_bucket{model="recsys-v3",le="0.1"}（预测延迟直方图）
- ml_feature_drift_score{feature="user_age",version="20240501"}（基于KS检验的特征漂移分）
- ml_label_prediction_bias{label="click",prediction="1"}（标签-预测偏差，计算点击率偏差）
  这些指标直接映射到四个环中的监控归因环，使告警不再是“服务慢了”，而是“user_age特征分布发生显著漂移，请检查上游数据管道”。
部署编排：放弃Kubeflow Pipelines的复杂DSL，采用Argo Workflows + Helm Chart。Argo的YAML定义清晰、调试友好，Helm则确保环境一致性。我们为每个模型服务定义标准Helm Chart，包含资源限制、健康检查探针、Sidecar注入逻辑（如Jaeger追踪）。一次发布即是一次Git Commit，回滚只需helm rollback——这直接加固了回滚演进环。

这套工具链的共性是：所有组件都可被替换，但替换的前提是它必须能无缝接入四个环的任一环节。没有银弹，只有适配。

2.3 架构分层：为什么必须把“模型服务”拆成五层？

把模型打包成Docker镜像扔进K8s，只是完成了10%的工作。Part 4的架构设计强制将“模型服务”解耦为五个物理隔离、职责单一的层，每一层都是一个独立可测试、可监控、可替换的单元：

层级	名称	核心职责	关键技术实现	为何不可合并
L1	协议网关层	统一接收HTTP/gRPC请求，做TLS终止、认证鉴权、限流熔断	Envoy Proxy + JWT验证插件	若与L2合并，模型代码需处理网络协议细节，违反关注点分离；且无法对未进入模型的恶意请求做前置拦截
L2	预处理层	解析原始请求，执行特征工程（如文本分词、图像缩放）、调用Feature Store获取实时特征	Python Flask微服务 + Feast SDK	特征工程逻辑常需迭代（如新增用户行为序列长度），若与模型耦合，每次变更都需重训模型，成本极高
L3	模型执行层	加载模型权重，执行前向传播，输出原始logits或概率	Triton Inference Server（GPU） / ONNX Runtime（CPU）	Triton提供动态批处理、模型热加载、多框架支持，是性能与灵活性的平衡点；自研推理引擎难以达到同等成熟度
L4	后处理层	对模型输出做业务逻辑转换（如概率→排序分、多分类→业务标签）、添加可解释性信息（SHAP值）	Go微服务（高并发场景）	后处理常涉及外部API调用（如调用风控服务），用Go避免Python GIL瓶颈；且业务逻辑变更频繁，需与模型解耦
L5	响应网关层	格式化最终响应（JSON/Protobuf），注入追踪ID、版本号、耗时统计	Nginx + Lua模块	需要毫秒级响应组装，Nginx性能远超应用层；Lua可灵活注入元数据，无需修改业务代码

这个五层架构不是过度设计。2023年我们为某金融客户上线反欺诈模型时，L2预处理层因上游数据格式变更（手机号字段从string变为int64）导致解析失败，错误蔓延至L3。由于L2与L3物理隔离，我们仅需重启L2服务（30秒内），L3模型完全不受影响，业务中断时间控制在1分钟内。若采用单体服务，整个模型服务需重启，预计中断5分钟以上——对反欺诈场景，5分钟意味着数百笔高风险交易漏过。分层的本质，是把“故障爆炸半径”从整个服务缩小到单一层级。

3. 核心细节解析与实操要点：让每个环节都经得起压测和审计

3.1 特征一致性：用“特征指纹”终结“训练-线上不一致”之痛

“训练时AUC 0.92，线上AUC 0.78”——这是Part 4最常听到的哭诉。90%的根源在于特征不一致。我们不再依赖“大家遵守规范”的软约束，而是用“特征指纹（Feature Fingerprint）”这一硬机制锁死一致性。

特征指纹是什么？它是一个SHA256哈希值，由以下四要素拼接后计算得出：

特征定义代码：Feast FeatureView的Python文件内容（feast_repo/feature_views/user_features.py）；
特征版本标识：Feast CLI生成的feature_view.version（如1.2.0）；
数据源快照时间：训练时读取的BigQuery表分区时间戳（如20240501）；
特征处理参数：如文本分词器的max_length=512、图像缩放的size=(224,224)等所有可配置项。

实操流程如下：

训练阶段：在训练脚本开头，调用generate_feature_fingerprint()函数，生成指纹并写入模型元数据（如S3的model-v3/metadata.json中）；
部署阶段：模型服务启动时，自动调用相同函数，生成运行时指纹；
校验阶段：服务启动时比对两个指纹，若不一致，立即panic退出，拒绝提供服务。

提示：我们曾将此校验设为warn级别，结果运维同学在告警风暴中忽略了它，导致线上服务持续使用错误特征数周。现在规则是：指纹不一致 = 服务不可用，没有灰色地带。

为什么必须包含“数据源快照时间”？因为特征定义代码相同，不代表数据相同。例如，user_age特征定义为SELECT FLOOR((CURRENT_DATE() - birth_date) / 365.25) FROM users，若训练时用20240501分区，线上用20240502分区，用户年龄可能因生日临近而突变。我们在指纹中强制固化时间戳，确保“同代码、同数据、同结果”。

实测效果：在2023年Q4的127次模型发布中，共触发19次指纹校验失败，其中17次为数据分区错误，2次为特征参数误配。所有失败均在发布前被拦截，线上因特征不一致导致的故障降为0。

3.2 服务契约：用OpenAPI 3.0自动生成SDK，消灭“口头约定”

模型服务的接口文档，往往是团队里最过时的文件。Part 4要求：所有模型服务的输入/输出Schema，必须由代码生成，而非人工编写。我们采用OpenAPI 3.0规范，但关键在于生成时机与方式。

核心实践：

定义即实现：模型服务的请求/响应Pydantic模型（如PredictRequest,PredictResponse）是唯一真相源。我们用pydantic-openapi库，从这些模型自动生成OpenAPI YAML文件。
SDK自动生成：CI流水线中，openapi-generator-cli基于生成的YAML，为Python、Java、Go三种语言生成客户端SDK。SDK发布至内部PyPI/Nexus仓库，业务方直接pip install my-model-sdk即可。
契约测试自动化：在模型服务的单元测试中，加入openapi-spec-validator校验，确保代码变更后生成的OpenAPI仍符合规范；同时用prism工具启动Mock服务，对SDK进行端到端契约测试。

为什么不用Swagger UI手写？手写文档必然滞后于代码。曾有团队修改了PredictResponse的confidence_score字段为float，但忘记更新Swagger，导致Java客户端仍按double解析，出现精度丢失。自动生成后，此类问题彻底消失。

一个关键细节：错误码的语义化定义。OpenAPI中，我们严格定义HTTP状态码与业务错误码的映射：

responses: '200': description: 预测成功 '400': description: 请求参数错误（如用户ID格式非法） content: application/json: schema: $ref: '#/components/schemas/BadRequestError' '422': description: 特征缺失或无效（如required特征为空） '503': description: 特征服务不可用（上游Feast Online Store超时）

业务方SDK会自动将422错误解析为FeatureValidationError异常，无需手动判断字符串。这种契约，让前端、后端、算法三方对“什么错、怎么修”达成绝对共识。

3.3 监控归因：不只是看P99延迟，更要盯住“预测分布漂移”

生产环境的监控，绝不能停留在“服务是否活着”。Part 4要求监控必须回答三个灵魂问题：模型还在工作吗？模型还在正确工作吗？模型还在为当前业务工作吗？

为此，我们构建了三级监控体系：

第一级：基础设施层（Infra Metrics）

container_cpu_usage_seconds_total（CPU使用率）
container_memory_working_set_bytes（内存占用）
http_request_duration_seconds_bucket（HTTP延迟直方图）
作用：快速定位资源瓶颈。阈值设定为CPU > 80%持续5分钟告警。

第二级：服务层（Service Metrics）

ml_prediction_count_total{status="success"}（成功预测数）
ml_prediction_count_total{status="error"}（错误预测数，按错误码细分）
ml_feature_fetch_latency_seconds_bucket（特征获取延迟）
作用：识别服务内部异常。例如status="feature_timeout"激增，说明Feast Online Store响应慢。

第三级：模型层（Model Metrics）——这才是Part 4的核心

ml_prediction_confidence_distribution（预测置信度直方图）：若模型输出概率，监控0.0-0.1、0.1-0.2...0.9-1.0各桶的请求数。正常应呈一定分布；若突然90%请求集中在0.95-1.0，可能模型过拟合或数据异常。
ml_label_prediction_bias{label="fraud", prediction="1"}（标签-预测偏差）：计算公式为|实际欺诈率 - 预测欺诈率|。若训练集欺诈率为1%，线上预测欺诈率为5%，偏差达4%，需立即告警。
ml_feature_drift_score{feature="transaction_amount"}（特征漂移分）：使用KS检验（Kolmogorov-Smirnov Test）计算线上特征分布与训练分布的差异。KS值>0.2即告警。

实操要点：

所有模型层指标，均由模型服务进程内的Exporter主动上报，不依赖离线批处理。因为漂移检测必须实时，否则等离线任务跑完，坏数据已污染业务数小时。
我们为每个关键特征（如transaction_amount,user_session_length）配置独立的漂移告警，阈值根据历史波动率动态调整（如过去7天KS值的P95分位数+0.05）。
偏差告警会自动触发“影子模式（Shadow Mode）”：将线上流量同时发送给新旧模型，对比输出差异，生成归因报告。

注意：不要迷信单一指标。曾有模型prediction_confidence_distribution显示正常，但label_prediction_bias飙升，根因是上游风控策略收紧，导致真实欺诈样本减少，模型预测欺诈率虚高。必须多维交叉验证。

3.4 回滚演进：为什么“一键回滚”必须包含数据版本回退？

“回滚”常被简化为“切回旧版模型镜像”，这是巨大误区。Part 4的回滚是原子操作，必须同步回退模型版本、特征版本、数据版本三者。

标准回滚流程：

运维执行helm rollback my-model-release 3（回滚到第3版）；
Helm Hook自动触发pre-delete脚本，该脚本：
- 从S3下载第3版模型元数据（model-v3/metadata.json）；
- 解析其中的feature_version（如feast-v2.1）和data_partition（如20240425）；
- 调用Feast CLI，将Online Store的feast-v2.1特征版本设为默认；
- 更新BigQuery数据源配置，强制读取20240425分区；
服务重启，加载旧模型，使用旧特征，读取旧数据。

为什么必须回退数据版本？因为特征计算依赖数据。假设v4模型使用20240501分区数据训练，v3模型使用20240425分区。若只回滚模型，服务仍读20240501分区，但v3模型未见过该分区数据，特征分布可能严重偏移。我们曾因此导致回滚后AUC骤降15个百分点。

演进保障：每次新模型发布，必须通过“金丝雀发布（Canary Release）”：先将5%流量导入新模型，持续监控30分钟，确认label_prediction_bias< 0.5%、feature_drift_score< 0.15后，再逐步放大至100%。所有发布记录存入GitOps仓库，形成可审计的演进轨迹。

4. 实操过程与核心环节实现：从零搭建一个可生产的ML服务

4.1 环境准备：用Terraform固化生产就绪的K8s集群

一切始于环境。Part 4拒绝“本地Docker Compose跑通即上线”的侥幸。我们用Terraform定义生产级K8s集群，核心模块包括：

节点池配置：

module "gpu_nodes" { source = "terraform-google-modules/kubernetes-engine/google//modules/beta-public-cluster" version = "~> 25.0" # GPU节点池：n1-standard-8 + 1x NVIDIA T4，专用于Triton推理 } module "cpu_nodes" { source = "terraform-google-modules/kubernetes-engine/google//modules/beta-public-cluster" version = "~> 25.0" # CPU节点池：e2-standard-16，用于预处理/后处理等无GPU依赖服务 }

网络与安全：
- 启用VPC-native集群，配置专用子网；
- 创建NetworkPolicy，禁止Pod间任意通信，仅允许L1→L2、L2→L3、L3→L4等预定义路径；
- 为每个命名空间（ml-staging,ml-prod）配置ResourceQuota，限制CPU/Memory总量，防止单个模型吃光集群资源。
存储与密钥：
- 创建S3兼容的MinIO实例（或直接使用AWS S3），用于模型/特征存储；
- 使用Kubernetes Secrets + External Secrets Operator，将云厂商密钥（如AWS_ACCESS_KEY）安全注入集群，供Feast访问S3。

实操心得：初期我们尝试用kubeadm手动搭建集群，结果因内核参数（如vm.swappiness）、网络插件（Calico vs Cilium）配置差异，导致线上环境与测试环境行为不一致。Terraform固化后，staging与prod环境差异仅在于节点数量与资源配额，99%的问题可在staging复现。环境即代码，是Part 4的第一道护城河。

4.2 模型服务构建：Triton + FastAPI的黄金组合

我们摒弃自研推理服务，采用NVIDIA Triton Inference Server作为L3模型执行层核心。其优势在于：

支持TensorRT、ONNX、PyTorch、TensorFlow等多框架模型，无需为不同框架写不同服务；
内置动态批处理（Dynamic Batching），将多个小请求合并为大batch，GPU利用率从35%提升至82%；
支持模型热加载，无需重启服务即可更新模型。

完整构建流程：

模型导出：将PyTorch模型导出为TorchScript格式，并保存为.pt文件；

Triton模型仓库结构：

models/ └── recsys_v3/ ├── 1/ │ └── model.pt # Triton加载的模型文件 ├── config.pbtxt # Triton配置文件（定义输入输出、batching策略） └── version_policy.txt # 版本策略（如“latest 1”表示只加载最新版）

config.pbtxt关键配置：

name: "recsys_v3" platform: "pytorch_libtorch" max_batch_size: 128 input [ { name: "USER_ID" datatype: TYPE_INT64 shape: [1] }, { name: "ITEM_IDS" datatype: TYPE_INT64 shape: [100] } ] output [ { name: "PREDICTIONS" datatype: TYPE_FP32 shape: [100] } ] dynamic_batching [ ] # 启用动态批处理

FastAPI预处理服务（L2）：

# l2_preprocessor/main.py from fastapi import FastAPI, HTTPException from feast import FeatureStore from pydantic import BaseModel app = FastAPI() store = FeatureStore(repo_path="feast_repo") class PredictRequest(BaseModel): user_id: int item_ids: List[int] @app.post("/predict") async def predict(request: PredictRequest): try: # 1. 从Feast获取实时特征 features = store.get_online_features( entity_rows=[{"user_id": request.user_id}], features=["user_features:age", "user_features:region"] ).to_dict() # 2. 构造Triton输入 triton_input = { "USER_ID": np.array([[request.user_id]], dtype=np.int64), "ITEM_IDS": np.array([request.item_ids], dtype=np.int64) } # 3. 调用Triton gRPC接口 return await call_triton(triton_input) except Exception as e: raise HTTPException(status_code=503, detail=f"Feature fetch failed: {str(e)}")

Docker化与Helm部署：
- Dockerfile基于nvcr.io/nvidia/tritonserver:23.12-py3基础镜像；
- Helm Chart中，为Triton服务配置resources.limits.nvidia.com/gpu: 1，确保独占GPU；
- 为FastAPI服务配置livenessProbe，定期调用/health端点检查Feast连接状态。

实测参数：在T4 GPU上，Triton对100个item的batch推理延迟P95为42ms，吞吐达210 QPS；启用动态批处理后，P95延迟降至31ms，吞吐升至340 QPS。性能提升来自标准化，而非魔法。

4.3 CI/CD流水线：GitOps驱动的全自动发布

Part 4的发布，是代码提交触发的全自动旅程。我们使用GitHub Actions + Argo CD构建GitOps流水线：

流水线阶段：

Lint & Test：
- pylint检查代码风格；
- pytest运行单元测试（含特征指纹校验、OpenAPI生成测试）；
- black自动格式化。
Build & Push：
- 构建Triton模型镜像（docker build -t gcr.io/my-project/triton-recsys:v3 .）；
- 推送至Google Container Registry；
- 将模型文件上传至S3（aws s3 cp models/recsys_v3 s3://my-bucket/models/recsys_v3 --recursive）。
Deploy to Staging：
- 更新Helm Chart的values.yaml，设置image.tag=v3、model.version=recsys_v3；
- helm upgrade --install recsys-staging ./charts/ml-service -f values-staging.yaml；
- Argo CD自动同步，将staging环境更新至新版本。
Staging验证：
- 自动运行金丝雀测试：发送1000条合成请求，验证label_prediction_bias < 0.5%；
- 若失败，流水线中断，通知负责人。
Promote to Prod：
- 人工审批（Require 2 approvals）；
- 执行helm upgrade recsys-prod ./charts/ml-service -f values-prod.yaml；
- Argo CD同步prod环境。

关键创新：我们将模型元数据（metadata.json）作为流水线的“产物”，而非中间文件。每次git push，流水线生成的metadata.json自动提交回Git仓库的/releases目录。这样，git log就是完整的模型演进史，git blame可追溯每次AUC下降的元凶。

4.4 线上调试：当P99延迟飙升，如何3分钟定位到Feast Redis超时？

生产环境没有“慢慢查”。Part 4要求所有服务内置调试能力：

分布式追踪：集成Jaeger，为每个请求生成Trace ID。L1 Envoy、L2 FastAPI、L3 Triton、L4 Go服务均注入traceparent头，形成完整调用链。当延迟飙升，直接在Jaeger UI搜索ml_prediction_latency_seconds > 1000，可精准定位到“L2调用Feast Redis耗时980ms”这一环节。
实时日志分析：所有服务日志以JSON格式输出，通过Fluent Bit收集至Elasticsearch。关键字段：service_name,trace_id,latency_ms,feature_name,error_code。查询DSL示例：
```
{ "query": { "bool": { "must": [ {"match": {"service_name": "l2-preprocessor"}}, {"range": {"latency_ms": {"gt": 500}}} ] } } }
```
结果可直接关联到具体特征（如feature_name: "user_features:session_count"）。
在线诊断Endpoint：每个服务暴露/debug/health端点，返回：
- 当前Feast Online Store连接状态（redis_connected: true）；
- 最近10次特征获取的P95延迟；
- 当前加载的模型版本与特征指纹。
  运维可随时curl http://l2-service/debug/health，无需登录Pod。

一次真实排障记录：

现象：ml_prediction_latency_seconds_bucket{le="0.1"}下降20%，P95延迟从42ms升至128ms；
步骤1：Jaeger查Trace，发现90%请求在L2的store.get_online_features()卡住；
步骤2：curl http://l2-service/debug/health，返回redis_connected: false；
步骤3：检查Redis监控，发现内存使用率99%，触发OOM Killer杀掉Redis进程；
步骤4：扩容Redis内存，3分钟内恢复。
整个过程，未登录任何服务器，全在浏览器完成。

5. 常见问题与排查技巧实录：那些文档不会写的血泪教训

5.1 “模型精度高，但线上效果差”——90%是特征管道的锅

现象描述：离线AUC 0.91，线上AUC 0.73，且ml_feature_drift_score无明显异常。
排查路径：

检查特征时效性：对比训练时特征快照时间（20240501）与线上服务实际读取的Redis数据时间戳。我们曾发现Feast的online_store配置中redis_ttl=3600（1小时），但用户行为特征需实时更新，导致线上特征永远比训练晚1小时。
检查特征编码一致性：训练时用sklearn.preprocessing.LabelEncoder，线上用pandas.factorize()，导致同一用户ID在训练/线上映射到不同整数。解决方案：所有编码器必须序列化为joblib文件，与模型一同部署。
检查缺失值处理：训练时用fillna(0)，线上因网络抖动特征未返回，服务代码默认填None，Triton报NaN错误。解决方案：预处理层强制fillna()，并在/debug/health中暴露缺失率统计。

实操心得：在/debug/health中增加feature_missing_rate指标，阈值设为0.1%。一旦超限，自动触发告警并暂停流量。我们靠此机制，在2023年捕获了7次上游数据管道故障，平均提前23分钟发现。

5.2 “服务启动就OOM”——GPU显存的隐形杀手

现象描述：Triton服务启动后，nvidia-smi显示GPU显存100%，但nvidia-smi无进程，dmesg报Out of memory: Kill process。
根本原因：Triton的model_repository目录权限问题。若模型文件属主为root，Triton以triton用户运行时，会因无法读取模型而反复重试，触发内存泄漏。
解决方案：

构建Docker镜像时，chown -R triton:triton /models；
在Helm Chart中，添加securityContext.runAsUser: 1001（triton用户ID）；
启动脚本中加入ls -la /models校验，失败则exit 1。

另一个隐形杀手：Triton的--model-control-mode=explicit模式。若未显式调用load_modelAPI，模型不会加载，但显存仍被预留。我们改为--model-control-mode=poll，并配置--repository-poll-secs=30，确保模型按需加载。

5.3 “回滚后指标更差”——数据版本与特征版本的错配

现象描述：v4模型上线后AUC下降，回滚至v3，AUC未恢复，反而继续下降。
根因分析：v3模型训练时使用feast-v2.1特征版本，但回滚时Feast Online Store已升级至feast-v2.3，其user_features表结构变更（新增is_premium字段），v3模型代码未适配，导致特征解析失败，返回默认值。
解决方案：