当前位置：首页 > news >正文

从零构建AI工程化项目：MLflow、DVC与Kubernetes实战指南

news 2026/5/5 19:41:50

1. 项目概述与核心价值

最近在GitHub上看到一个名为“ai-engineering-from-scratch”的项目，作者是rohitg00。这个标题本身就充满了吸引力，它直指当前技术领域最热门也最令人困惑的交叉点：人工智能工程化。作为一名在软件开发和系统架构领域摸爬滚打了十多年的从业者，我深知从零开始构建一个完整的AI工程化项目意味着什么。这绝不仅仅是调几个API或者跑通一个Jupyter Notebook那么简单，它涉及从数据处理、模型训练、服务部署到监控维护的完整生命周期，是一个系统工程问题。

这个项目吸引我的地方在于“from-scratch”（从零开始）这个关键词。它暗示了一种不依赖黑盒服务、深入理解底层原理的实践路径。在AI应用爆炸式增长的今天，很多团队和个人倾向于直接使用云服务商提供的现成AI服务，这虽然能快速实现功能，但也带来了成本不可控、技术栈锁定、模型可解释性差以及难以针对特定业务场景深度优化等一系列问题。因此，掌握从零搭建AI工程化流水线的能力，对于希望构建核心竞争力的技术团队和个人开发者而言，变得至关重要。这个项目很可能就是一份关于如何系统化、工程化地实践AI开发的路线图或工具箱，它面向的是那些不满足于“调包”，希望深入理解并掌控AI应用全栈技术的工程师、研究员和技术决策者。

2. 项目核心架构与设计思路拆解

2.1 从“炼丹”到“工程”：理念的转变

传统的AI开发，尤其是学术研究或小规模原型验证阶段，常常被戏称为“炼丹”。数据科学家或研究员在一个相对隔离的环境（如本地Jupyter Notebook）中进行数据探索、特征工程和模型实验。一旦模型在验证集上取得了不错的指标，项目往往就宣告“成功”。然而，要将这个模型转化为一个稳定、可靠、可扩展的线上服务，中间隔着巨大的鸿沟。这就是AI工程化要解决的核心问题。

一个典型的AI工程化项目，其生命周期至少包含以下几个关键阶段：

数据管理与版本控制：如何高效地获取、清洗、标注海量数据？如何对数据集进行版本化管理，确保实验的可复现性？
模型开发与实验跟踪：如何在团队协作中高效地进行模型实验？如何系统地记录每一次实验的超参数、代码版本、数据集版本和性能指标？
模型训练与资源调度：如何利用分布式计算资源（如GPU集群）加速训练？如何管理训练任务的生命周期（排队、调度、容错）？
模型评估与验证：除了准确率、F1值等离线指标，如何设计面向业务的在线评估体系（如A/B测试）？
模型部署与服务化：如何将训练好的模型打包成可服务的API？如何管理模型版本（如金丝雀发布、滚动更新）？如何保证服务的高可用和低延迟？
监控与持续学习：线上服务如何监控预测性能的衰减（概念漂移）？如何设计数据闭环，利用线上反馈数据持续优化模型？

“ai-engineering-from-scratch”项目，其设计思路必然是围绕上述完整生命周期展开的。它不会只教你用PyTorch或TensorFlow写一个模型，而是会教你如何用工程化的工具链（如DVC、MLflow、Kubeflow、FastAPI、Prometheus等）将这些环节串联起来，构建一个自动化、可观测、可维护的AI系统。

2.2 技术栈选型背后的逻辑

基于“从零开始”的理念，项目在技术栈选型上可能会倾向于开源、可自托管、社区活跃的组件，而非完全绑定某一家云厂商。以下是我推测项目可能涉及的核心技术栈及其选型理由：

数据与实验管理：
- DVC (Data Version Control)：这是一个将Git扩展到数据领域的工具。在AI项目中，代码和模型固然重要，但数据才是真正的“一等公民”。DVC允许你像管理代码一样，通过Git来追踪大型数据集和模型文件的版本，同时将实际文件存储在高性能的远程存储（如S3、GCS、MinIO）中。选它的理由是其与Git的无缝集成和出色的数据管道（pipeline）定义能力。
- MLflow：由Databricks开源，是目前最主流的机器学习生命周期管理平台之一。它的Tracking组件用于记录实验参数、指标和产出物（模型、图表）；Projects用于打包可复现的代码；Models用于模型打包和部署。选型理由是功能全面、社区生态好，且与多种ML框架兼容。
工作流编排与资源调度：
- Kubeflow Pipelines或Apache Airflow：对于复杂的、多步骤的机器学习流水线（如数据预处理 -> 特征工程 -> 模型训练 -> 模型评估），需要一个工作流编排引擎。Kubeflow Pipelines深度集成Kubernetes，原生支持容器化任务和GPU资源管理，非常适合云原生AI场景。Airflow则更为通用，调度能力极强，但需要更多配置才能完美适配ML任务。如果项目强调云原生，Kubeflow的可能性更大。
- Docker & Kubernetes：容器化和编排是现代化工程实践的基石。Docker确保模型训练和服务环境的一致性，Kubernetes则提供了弹性的资源调度、服务发现和负载均衡能力，是实现模型服务高可用的关键。
模型服务化：
- FastAPI或TensorFlow Serving / TorchServe：对于将模型暴露为REST API，FastAPI因其高性能、自动生成API文档和易于使用而备受青睐，适合包装自定义的推理逻辑。而TensorFlow Serving和TorchServe是框架原生的高性能服务化工具，对自家模型格式支持最好，吞吐量和延迟优化更到位。项目可能会同时介绍两者，让开发者根据场景选择。
监控与可观测性：
- Prometheus & Grafana：这对黄金组合是云原生监控的事实标准。Prometheus可以抓取模型服务的各项指标（如请求延迟、QPS、错误率），Grafana则用于可视化。项目需要教你如何为模型服务定义和暴露自定义的业务指标，比如预测结果的分布、特定类别样本的准确率等。
- Evidently AI或WhyLogs：这些是专门用于监控数据漂移和模型性能的工具。它们可以定期分析线上服务接收的数据特征分布，并与训练数据进行比较，从而在业务指标下降之前预警概念漂移。

注意：技术选型没有银弹。项目的价值在于清晰地阐述每个工具在AI工程化流水线中的具体角色、解决了什么问题，以及它们之间如何协同工作，而不是简单地罗列一堆流行技术。

3. 核心模块深度解析与实操要点

3.1 数据版本化与管道管理实战

数据是AI项目的燃料，管理不善会导致实验无法复现、团队协作混乱。DVC在这里扮演了核心角色。

实操步骤：

初始化与远程存储配置：

# 在项目根目录初始化DVC dvc init # 添加远程存储（以Amazon S3为例） dvc remote add -d myremote s3://my-bucket/dvc-storage # 配置S3访问密钥（也可通过环境变量或IAM角色） dvc remote modify myremote access_key_id YOUR_ACCESS_KEY dvc remote modify myremote secret_access_key YOUR_SECRET_KEY

这里的关键是理解dvc remote的概念。DVC本身不存储大文件，它只生成一个指向远程存储中实际文件位置的.dvc指针文件。这个指针文件很小，可以随代码一起用Git管理。

跟踪大型数据集：
```
# 假设你有一个`data/raw`目录存放原始数据 dvc add data/raw
```
执行后，DVC会将data/raw目录下的文件上传到你配置的远程存储（如S3），并在本地生成一个data/raw.dvc文件。你需要将data/raw.dvc和其对应的.gitignore文件（DVC自动生成）提交到Git仓库。
定义可复现的数据处理管道： DVC的强大之处在于其管道（Pipeline）功能。你可以在dvc.yaml文件中定义一系列阶段（stages）。
```
stages: prepare: cmd: python src/prepare.py data/raw data/prepared deps: - src/prepare.py - data/raw outs: - data/prepared params: - prepare.seed - prepare.test_size train: cmd: python src/train.py data/prepared model.pkl deps: - src/train.py - data/prepared outs: - model.pkl params: - train.learning_rate - train.batch_size metrics: - scores.json: cache: false # 指标文件通常不缓存
```
每个stage定义了命令(cmd)、依赖(deps)、输出(outs)、参数(params)和指标(metrics)。运行dvc repro命令，DVC会根据依赖关系自动判断哪些阶段需要重新执行，确保了整个数据处理和训练流程的自动化与可复现性。

实操心得：

.dvc文件要提交，大文件不上传：务必牢记，只有.dvc文件进Git。首次dvc push将数据推送到远程，团队成员git pull后，需要运行dvc pull来同步数据。
参数化一切：将数据处理和模型训练中的可变因素（如随机种子、训练轮数、学习率）都定义为params。这样，你可以通过dvc params diff轻松比较不同实验的参数差异。
管道设计要模块化：将复杂的流程拆分成多个小的、职责单一的stage，这样不仅清晰，也便于单独重跑某个失败的环节。

3.2 实验跟踪与模型注册的艺术

MLflow Tracking Server是我们所有实验的“实验室笔记本”。它的正确使用是团队协作和模型管理的基础。

部署与集成：

启动MLflow Tracking Server：最简单的方式是使用Docker。
```
docker run -p 5000:5000 -v ./mlruns:/mlruns ghcr.io/mlflow/mlflow:v2.9.2
```
这将启动一个服务器，并将实验数据存储在本地./mlruns目录。生产环境建议配置后端存储（如PostgreSQL）和对象存储（如S3）用于存储Artifacts。

在训练代码中集成MLflow：

import mlflow import mlflow.sklearn # 如果你用scikit-learn # 设置跟踪服务器的URI mlflow.set_tracking_uri("http://localhost:5000") # 设置实验名称 mlflow.set_experiment("Customer-Churn-Prediction") # 开始一个实验运行 with mlflow.start_run(run_name="xgboost_baseline"): # 记录参数 mlflow.log_param("learning_rate", 0.1) mlflow.log_param("max_depth", 6) # 训练模型... model = train_model(X_train, y_train, params) # 评估模型 accuracy, f1 = evaluate_model(model, X_test, y_test) # 记录指标 mlflow.log_metric("accuracy", accuracy) mlflow.log_metric("f1_score", f1) # 记录图表（如混淆矩阵） fig = plot_confusion_matrix(...) mlflow.log_figure(fig, "confusion_matrix.png") # 记录模型（自动记录框架、环境等信息） mlflow.sklearn.log_model(model, "model") # 也可以记录任意文件 mlflow.log_artifact("feature_importance.csv")

运行代码后，打开http://localhost:5000，你就能看到一个清晰的UI，展示所有实验的运行记录，可以对比不同运行的参数和指标。

模型注册表（Model Registry）进阶：当模型通过离线评估后，需要将其推送到线上环境。MLflow Model Registry提供了模型版本控制和生命周期管理。

注册模型：在UI界面或通过API，可以将某个运行产生的模型注册到名为Churn-Production的模型库中。
版本控制与阶段转换：注册后产生Version 1。你可以将其阶段（Stage）从None改为Staging，进行预发布测试。测试通过后，再改为Production。同一时间，只有一个版本可以处于Production阶段，这天然支持了金丝雀发布和回滚。
API调用：部署服务时，可以通过mlflow.pyfunc.load_model(model_uri="models:/Churn-Production/Production")来加载处于生产阶段的最新模型，实现模型更新与服务的解耦。

提示：将MLflow Tracking Server的访问URI设置为环境变量，而不是硬编码在代码中。这样便于在不同环境（开发、测试、生产）中切换。

4. 模型服务化与云原生部署实战

4.1 基于FastAPI构建模型API服务

FastAPI以其现代、快速和易用性，成为构建模型API服务的首选。下面我们构建一个完整的服务。

项目结构：

model_service/ ├── app/ │ ├── __init__.py │ ├── main.py # FastAPI应用主文件 │ ├── api.py # 路由定义 │ ├── models.py # Pydantic数据模型 │ ├── ml_model.py # 模型加载与预测逻辑 │ └── dependencies.py # 依赖项（如模型加载器） ├── requirements.txt ├── Dockerfile └── tests/

核心代码解析 (app/main.py和app/ml_model.py):

# app/ml_model.py import mlflow.pyfunc import logging from typing import Any, Dict import pandas as pd logger = logging.getLogger(__name__) class ModelLoader: """模型加载器，实现单例模式，避免重复加载模型""" _instance = None _model = None def __new__(cls): if cls._instance is None: cls._instance = super(ModelLoader, cls).__new__(cls) cls._instance.load_model() return cls._instance def load_model(self): """从MLflow Model Registry加载生产环境模型""" try: # 模型URI格式：models:/<model_name>/<stage> model_uri = "models:/Churn-Production/Production" logger.info(f"Loading model from {model_uri}") self._model = mlflow.pyfunc.load_model(model_uri) logger.info("Model loaded successfully.") except Exception as e: logger.error(f"Failed to load model: {e}") raise def predict(self, input_data: Dict[str, Any]) -> Dict[str, Any]: """执行预测""" if self._model is None: raise RuntimeError("Model is not loaded.") # 将输入字典转换为DataFrame（MLflow pyfunc模型通用输入格式） input_df = pd.DataFrame([input_data]) prediction = self._model.predict(input_df) # 假设是二分类，返回概率和类别 probability = float(prediction[0]) if isinstance(prediction[0], (np.floating, float)) else 0.0 return { "prediction": "churn" if probability > 0.5 else "no_churn", "probability": probability, "model_version": "1.0" # 可以从模型元数据中动态获取 } # app/main.py from fastapi import FastAPI, Depends from app.api import router as api_router from app.ml_model import ModelLoader from contextlib import asynccontextmanager import logging logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) @asynccontextmanager async def lifespan(app: FastAPI): """生命周期管理：启动时加载模型，关闭时清理（可选）""" # 启动时 logger.info("Starting up... Loading ML model.") # 初始化ModelLoader会触发模型加载 _ = ModelLoader() yield # 关闭时 logger.info("Shutting down...") app = FastAPI(title="Customer Churn Prediction API", lifespan=lifespan) # 包含路由 app.include_router(api_router, prefix="/api/v1") # app/api.py from fastapi import APIRouter, Depends, HTTPException from pydantic import BaseModel from app.ml_model import ModelLoader import logging router = APIRouter() logger = logging.getLogger(__name__) # 定义请求/响应数据模型 class PredictionRequest(BaseModel): customer_id: str tenure: int monthly_charges: float total_charges: float # ... 其他特征 class PredictionResponse(BaseModel): customer_id: str prediction: str probability: float model_version: str @router.post("/predict", response_model=PredictionResponse) async def predict( request: PredictionRequest, model_loader: ModelLoader = Depends(lambda: ModelLoader()) # 依赖注入 ): try: # 将Pydantic模型转换为字典 input_dict = request.dict() # 调用模型预测 result = model_loader.predict(input_dict) return PredictionResponse( customer_id=request.customer_id, **result ) except Exception as e: logger.exception(f"Prediction failed for {request.customer_id}") raise HTTPException(status_code=500, detail=str(e))

Docker化封装：

# Dockerfile FROM python:3.10-slim WORKDIR /app # 安装系统依赖（如有需要） # RUN apt-get update && apt-get install -y --no-install-recommends gcc ... # 复制依赖文件并安装 COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 复制应用代码 COPY ./app ./app # 暴露端口 EXPOSE 8000 # 启动命令，使用uvicorn提升性能 CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000", "--workers", "4"]

4.2 Kubernetes部署与弹性伸缩

将Docker镜像部署到Kubernetes集群，是实现高可用、弹性伸缩的最终步骤。

关键Kubernetes资源配置文件：

Deployment (deployment.yaml)：定义应用副本和更新策略。

apiVersion: apps/v1 kind: Deployment metadata: name: churn-model-api spec: replicas: 3 # 初始3个副本 selector: matchLabels: app: churn-model-api template: metadata: labels: app: churn-model-api spec: containers: - name: api image: your-registry/churn-model-api:latest ports: - containerPort: 8000 env: - name: MLFLOW_TRACKING_URI # 通过环境变量配置MLflow地址 value: "http://mlflow-server.default.svc.cluster.local:5000" resources: requests: memory: "512Mi" cpu: "250m" limits: memory: "1Gi" cpu: "500m" livenessProbe: httpGet: path: /health # 需要在API中添加健康检查端点 port: 8000 initialDelaySeconds: 30 periodSeconds: 10 readinessProbe: httpGet: path: /ready port: 8000 initialDelaySeconds: 5 periodSeconds: 5

livenessProbe和readinessProbe至关重要，它们确保Kubernetes能正确管理Pod的生命周期。

Service (service.yaml)：为Pod提供稳定的网络访问入口。

apiVersion: v1 kind: Service metadata: name: churn-model-api-service spec: selector: app: churn-model-api ports: - port: 80 targetPort: 8000 type: ClusterIP # 内部访问，如需对外暴露，可使用NodePort或Ingress

Horizontal Pod Autoscaler (hpa.yaml)：根据CPU或自定义指标自动伸缩。

apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: churn-model-api-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: churn-model-api minReplicas: 2 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 70 # 可以添加基于自定义指标（如QPS）的伸缩，需要安装Metrics Server和Prometheus Adapter

部署命令：

# 构建并推送镜像 docker build -t your-registry/churn-model-api:latest . docker push your-registry/churn-model-api:latest # 应用Kubernetes配置 kubectl apply -f deployment.yaml kubectl apply -f service.yaml kubectl apply -f hpa.yaml # 查看状态 kubectl get pods,svc,hpa

5. 监控、可观测性与持续迭代

5.1 集成Prometheus与Grafana

模型服务上线后，监控其健康度和业务指标是运维的核心。

在FastAPI应用中暴露指标：使用prometheus-fastapi-instrumentator中间件。

# app/main.py 中添加 from prometheus_fastapi_instrumentator import Instrumentator instrumentator = Instrumentator().instrument(app) instrumentator.expose(app) # 通常在lifespan启动后调用

这会自动暴露/metrics端点，包含请求计数、延迟等标准HTTP指标。

添加自定义业务指标：监控预测结果的分布。

from prometheus_client import Counter, Histogram PREDICTION_COUNTER = Counter('model_predictions_total', 'Total predictions', ['model_version', 'outcome']) PREDICTION_LATENCY = Histogram('model_prediction_latency_seconds', 'Prediction latency in seconds') # 在预测函数中记录 @router.post("/predict") async def predict(...): start_time = time.time() try: result = model_loader.predict(input_dict) outcome = result['prediction'] # 记录成功预测 PREDICTION_COUNTER.labels(model_version=result['model_version'], outcome=outcome).inc() return result except Exception as e: # 记录失败预测 PREDICTION_COUNTER.labels(model_version='unknown', outcome='error').inc() raise finally: PREDICTION_LATENCY.observe(time.time() - start_time)

配置Prometheus抓取与Grafana看板：在Prometheus配置中添加Job来抓取你服务的/metrics端点。然后在Grafana中创建看板，可视化：
- 服务总QPS和延迟（P99， P95）。
- 各模型版本的调用量和成功率。
- 预测结果（如churnvsno_churn）的分布变化。
- 系统资源使用率（CPU，内存）。

5.2 数据漂移检测与模型迭代

模型性能衰减往往源于线上数据分布（概念漂移）或特征与预测目标关系（协变量漂移）的变化。我们需要主动检测。

使用Evidently AI进行周期性检测：

创建检测脚本：定期（如每天）从线上服务日志或特征存储中采样一批预测请求和结果，与训练集参考数据进行比较。

import pandas as pd from evidently.report import Report from evidently.metric_preset import DataDriftPreset, TargetDriftPreset # 加载参考数据（训练集）和当前数据（线上样本） reference_data = pd.read_csv('train_data.csv') current_data = pd.read_csv('today_predictions.csv') # 创建并运行数据漂移报告 data_drift_report = Report(metrics=[DataDriftPreset()]) data_drift_report.run(reference_data=reference_data, current_data=current_data) drift_result = data_drift_report.as_dict() # 检查是否有显著漂移 if drift_result['metrics'][0]['result']['dataset_drift']: logger.warning("Significant data drift detected!") # 触发警报：发送邮件、Slack消息或创建Jira工单

自动化与警报：将上述脚本设置为Kubernetes CronJob或Airflow DAG，定期执行。当检测到显著漂移时，通过Webhook触发警报，通知团队需要重新评估或重新训练模型。
构建数据闭环：在线上服务中，设计机制收集真实的业务反馈（如用户是否真的流失了）。将这些带标签的新数据存储起来，作为下一轮模型训练的数据来源，实现模型的持续学习和迭代。

6. 常见问题与排查技巧实录

在实际搭建和运维这样一个从零开始的AI工程化平台时，你会遇到各种各样的问题。以下是我在实践中总结的一些典型问题及其排查思路。

问题1：DVC push/pull 速度极慢或失败。

可能原因：网络问题；远程存储（如S3）配置错误或权限不足；单个文件过大。
排查步骤：
1. 检查网络与权限：使用aws s3 ls s3://your-bucket（或对应云存储命令）测试连接和权限。
2. 检查DVC远程配置：dvc remote list和dvc remote modify myremote --local查看配置。
3. 优化大文件：对于超大数据集，考虑是否可以先进行抽样用于开发。或者，检查DVC是否在尝试推送.git目录等无关文件。使用.dvcignore文件排除。
4. 启用传输加速/分块：对于云存储，确保启用传输加速。DVC本身支持文件分块，但对于超大文件，手动分割可能更可靠。

问题2：MLflow UI中看不到实验记录。

可能原因：Tracking Server URI设置错误；运行代码时未成功连接服务器；服务器后端存储（如数据库）连接问题。
排查步骤：
1. 确认URI：在代码中打印mlflow.get_tracking_uri()，确认与运行的服务器地址一致。
2. 检查服务器日志：查看MLflow Tracking Server容器的日志，看是否有错误。docker logs <container_id>。
3. 检查网络连通性：从运行代码的机器上，用curl http://mlflow-server:5000测试是否能访问服务器。
4. 检查后端存储：如果使用数据库，检查数据库服务是否正常，表是否创建。

问题3：Kubernetes Pod一直处于CrashLoopBackOff状态。

可能原因：应用启动失败（如依赖缺失、模型加载失败）；资源配置（requests/limits）不合理；健康检查配置不当。
排查步骤：
1. 查看Pod日志：这是第一步也是最重要的一步。kubectl logs <pod_name>或kubectl logs <pod_name> --previous（查看上次崩溃的日志）。
2. 描述Pod状态：kubectl describe pod <pod_name>，查看Events部分，常有镜像拉取失败、资源不足等明确错误。
3. 进入Pod调试：kubectl exec -it <pod_name> -- /bin/bash，尝试手动运行启动命令，看具体报错。
4. 检查健康检查：如果应用启动较慢，initialDelaySeconds设置过短会导致Pod刚启动就被判定为不健康而被重启。适当调大这个值。

问题4：模型服务API响应延迟高。

可能原因：模型本身推理慢；服务资源不足（CPU被限流）；网络延迟；序列化/反序列化开销大。
排查步骤：
1. 定位瓶颈：使用APM工具（如Py-Spy）对服务进行性能剖析，看时间主要消耗在模型预测还是数据预处理。
2. 监控资源：通过Grafana查看Pod的CPU/内存使用率是否接近limits。如果CPU被限流（Throttling），需要提高limits。
3. 优化预测：
  - 批处理：修改API支持批量预测，减少单次请求的框架开销。
  - 模型优化：使用ONNX Runtime、TensorRT或框架自有的优化工具对模型进行图优化、量化和编译。
  - 硬件加速：确保Pod调度到带有GPU的节点，并正确配置GPU资源。
4. 检查依赖项：某些数据处理库（如Pandas）在单次调用时可能有初始化开销。考虑预热或使用更轻量的替代方案。

问题5：检测到数据漂移后，该如何行动？

不要立即重新训练！数据漂移是重新评估模型的信号，但不是自动重新训练的指令。
标准操作流程：
1. 根因分析：是业务逻辑变化（如产品改版）？数据管道Bug？还是不可控的外部因素？
2. 影响评估：漂移是否导致了业务指标（如转化率）的显著下降？进行快速的在线A/B测试，对比新旧模型在当前数据上的表现。
3. 数据收集：如果确认需要新模型，启动新一轮数据标注或利用近期收集的反馈数据。
4. 实验与验证：在离线环境下用新数据训练和评估多个候选模型。
5. 谨慎上线：通过影子部署（Shadow Deployment）或金丝雀发布，将新模型小流量导入线上，严密监控其表现，确认优于旧模型后再全量替换。

构建一个完整的、生产级的AI工程化体系是一个持续迭代的过程。从“ai-engineering-from-scratch”这样的项目入手，最大的收获不是熟悉了一堆工具，而是建立起一套系统性的思维框架：如何以可复现、可协作、可监控、可维护的方式，将数据科学家的想法转化为稳定创造价值的软件服务。这套框架和能力，正是在AI时代构建技术护城河的关键。

查看全文

http://www.jsqmd.com/news/759049/