当前位置：首页 > news >正文

机器学习工作流编排：从胶带式脚本到可运维DAG的实战指南

news 2026/7/4 17:08:58

1. 这不是工具清单，而是一份“机器学习落地避坑地图”

你有没有经历过这样的场景：模型在Jupyter里跑得飞起，准确率92%，一到生产环境就掉链子——数据加载失败、特征版本错乱、训练任务莫名卡死、下游服务调用不到最新模型……最后发现，问题根本不在算法，而在整个流程像用胶带缠起来的水管：看着能通水，一加压就漏。我做过17个从0到1的ML交付项目，其中12个在上线前两周被叫停，原因清一色是** workflow断裂**。不是模型不行，是没人真正把“训练-验证-部署-监控”当成一条连续的工业流水线来设计。今天这篇不讲TensorFlow新API，也不比PyTorch和JAX谁更快，我们就死磕一个最朴素但最致命的问题：怎么让机器学习的每一步都可追溯、可重放、可协作、可运维？核心就落在“工作流编排”这四个字上。它不是锦上添花的玩具，而是决定一个ML项目是能进生产还是永远困在笔记本里的分水岭。下面这7个工具，我全部在真实业务场景中深度使用过——不是试用3天写篇测评，而是带着它们扛过双十一流量洪峰、撑住金融风控毫秒级响应、在医疗影像标注团队协作中保证特征一致性。我会告诉你每个工具在什么场景下是“神兵利器”，在什么条件下会变成“技术债加速器”，参数怎么调、权限怎么设、日志怎么看、故障怎么切，连Kubernetes里Pod重启时如何保住临时特征缓存这种细节都给你拆开讲。适合三类人：刚带团队做MLOps的Tech Lead、被线上模型漂移搞到失眠的算法工程师、以及正为毕业设计部署发愁的研究生——你们要的不是“支持DAG”的宣传话术，而是明天就能抄作业的实操指南。

2. 工作流编排的本质：从“脚本拼接”到“状态机治理”

2.1 为什么传统方式必然失败？

很多人以为“工作流编排”就是把Python脚本串成一个大for循环。我见过最典型的反模式：用shell脚本+crontab调度，train.py跑完自动触发deploy.sh，再curl调用API。表面看流程通了，实际埋了三颗雷：

状态不可知：train.py中途OOM退出，deploy.sh却照常执行，结果把上一轮旧模型推上生产；
依赖不可控：train.py依赖的feature_gen.py更新了，但没改版本号，导致新训练用的是旧特征逻辑，验证集指标虚高；
协作不可溯：算法A改了数据预处理，算法B没同步，两人本地跑的结果完全对不上，debug三天才发现是fillna()策略不一致。

这根本不是工程能力问题，而是缺乏对“计算状态”的显式建模。真正的编排系统必须把“任务”（Task）、“依赖”（Dependency）、“输入/输出”（Artifact）、“执行环境”（Execution Context）全部作为一等公民管理。比如，当你说“运行训练任务”，系统不该只执行代码，而要回答四个问题：

这个任务的输入数据版本是什么？（SHA256哈希值）
它依赖的代码提交在哪次Git commit？（不是分支名，是具体commit hash）
它产生的模型文件存放在哪个对象存储路径？（带时间戳和任务ID）
如果失败，上次成功运行的快照能否一键回滚？（不是重跑，是精确复现）

2.2 DAG不是万能解药，而是最小约束

所有主流工具都标榜“DAG支持”，但DAG只是起点，不是终点。我拿Airflow举个血泪教训：某电商推荐项目用Airflow调度，定义了extract → transform → train → evaluate → deploy五个节点。上线后发现evaluate总失败，查日志发现是transform生成的特征文件格式变了——但Airflow的DAG只校验“任务是否执行”，不校验“输出是否符合契约”。后来我们强制在每个task末尾加校验脚本：transform输出必须包含user_id,item_id,feature_vector三个字段，且feature_vector长度恒为128。这个校验本身不是DAG的一部分，却是保障DAG可靠性的前提。所以选型时，光看“是否支持DAG”没用，关键要看它是否提供契约驱动的输出验证机制。比如Kubeflow Pipelines原生支持OutputSpec声明，要求每个组件输出必须匹配预定义schema；而Prefect 2.x则通过@task(result_storage=...)强制指定结果存储位置和序列化方式，天然规避了“输出路径随意写”的问题。

2.3 环境隔离：为什么容器化不是可选项？

2019年我接手一个NLP项目，算法团队用Python 3.8 + PyTorch 1.7，运维团队坚持用CentOS 7（默认Python 2.7）。双方妥协方案是：在服务器上装pyenv，每个项目配独立虚拟环境。结果上线后train.py报错ModuleNotFoundError: No module named 'torch'——因为cron调用时没激活venv。后来改成source /path/to/venv/bin/activate && python train.py，又遇到LD_LIBRARY_PATH未继承导致CUDA初始化失败。折腾一周后，我们彻底转向容器化。现在所有任务都打包成Docker镜像，基础镜像统一用nvidia/cuda:11.3.1-cudnn8-runtime-ubuntu20.04，Python环境固定为python:3.8-slim，所有依赖通过requirements.txt安装。这样做的收益远超“环境一致”：

镜像层缓存让CI构建从12分钟降到90秒；
Kubernetes Pod启动时直接拉取镜像，无需现场pip install；
模型推理服务用相同镜像启动，确保训练和推理环境100%一致。

提示：别信“轻量级编排不需要容器”的说法。哪怕你用本地执行器（LocalExecutor），也请用docker run -v $(pwd):/workspace ...方式运行任务。我测试过，纯进程方式在并发>5时，内存泄漏概率提升300%，因为不同任务的numpy版本冲突会导致底层BLAS库句柄泄露。

3. 7大工具深度横评：按场景而非功能排序

3.1 Kubeflow Pipelines：当你的基础设施已是K8s集群

如果你的公司已经重度使用Kubernetes（比如有专门的K8s运维团队、有成熟的CI/CD流水线、有GPU资源池），Kubeflow Pipelines（KFP）几乎是唯一合理选择。它不是“在K8s上跑ML工作流”，而是“把K8s的能力原生注入ML工作流”。核心优势在于深度绑定K8s原语：

每个Pipeline组件（Component）本质是一个K8s Pod，可单独配置resources.requests.memory: "8Gi"、nodeSelector: {cloud.google.com/gke-accelerator: nvidia-tesla-t4}；
Pipeline执行历史直接映射为K8s CRD（CustomResourceDefinition），用kubectl get pipelineruns就能看到所有运行记录；
失败Pod的日志自动收集到Elasticsearch，配合Kibana可做根因分析（比如发现90%失败都发生在nvidia-smi命令超时，说明GPU驱动版本不兼容）。

但它的学习曲线极陡。我带过两个团队迁移，平均耗时6周。最大坑点是组件开发范式：KFP要求你把每个步骤写成独立的Python函数，然后用@component装饰器包装，最终编译成YAML。新手常犯错误是直接在函数里写pd.read_csv('data.csv')——这会导致数据路径硬编码。正确做法是用InputPath[str]和OutputPath[str]类型注解，让KFP自动注入挂载路径：

from kfp import dsl from kfp.dsl import InputPath, OutputPath @dsl.component def preprocess( input_data_path: InputPath(str), # KFP自动挂载到/tmp/inputs/data.csv output_data_path: OutputPath(str), # KFP自动创建/tmp/outputs/data.parquet ): import pandas as pd df = pd.read_csv(input_data_path) df.to_parquet(output_data_path) # 输出自动上传到对象存储

实操心得：KFP的UI界面（Pipelines Dashboard）看似强大，但生产环境千万别依赖它做日常运维。我们曾因Dashboard前端JS内存泄漏导致Chrome崩溃，紧急切换到kfp-pipeline-specCLI工具。建议把Pipeline定义全用Python SDK写，用Git管理DSL代码，而不是在UI里拖拽——后者无法做Code Review，也无法做版本回滚。

3.2 Prefect 2.x：给Python原生开发者的一封情书

Prefect 2.x是我近年最惊喜的发现。它彻底抛弃了“DAG即一切”的教条，转而拥抱Python原生语法。看这段代码：

from prefect import flow, task from prefect.filesystems import S3 @task def load_data(s3_path: str) -> pd.DataFrame: return pd.read_parquet(f"s3://{s3_path}") @task def train_model(df: pd.DataFrame) -> sklearn.ensemble.RandomForestClassifier: return RandomForestClassifier().fit(df.drop('label', axis=1), df['label']) @flow def ml_pipeline(): data = load_data("my-bucket/raw-data/2023-10-01.parquet") model = train_model(data) model.save("s3://my-bucket/models/rf-20231001.pkl")

这看起来就是普通Python函数，但@flow和@task装饰器赋予了它完整的工作流能力：自动序列化参数、追踪执行状态、失败自动重试、结果持久化到S3。Prefect的核心哲学是**“代码即配置”**——你不用学YAML或JSON Schema，所有逻辑都在Python里。这对算法团队极其友好：他们可以继续用熟悉的pandas、scikit-learn，只需加两行装饰器。

但它也有明显短板：对非Python生态支持弱。比如你想调用R语言的xgboost包，Prefect没有原生R Task Runner。我们的解决方案是封装成CLI工具：

# train_r_xgb.R library(xgboost) train_xgboost <- function(data_path, output_path) { df <- readr::read_csv(data_path) model <- xgboost::xgb.train(...) saveRDS(model, output_path) }

然后在Prefect里用subprocess.run(["Rscript", "train_r_xgb.R", data_path, output_path])调用。虽然可行，但失去了Python Task的类型安全和自动重试。

注意事项：Prefect 2.x的默认后端是Prefect Cloud（SaaS），但企业级用户必须自建Prefect Server。我们部署在K8s上，用PostgreSQL做元数据库，Redis做任务队列。关键配置是PREFECT_SERVER_API_DATABASE_CONNECTION_URL，必须用postgresql+asyncpg://协议，否则高并发时连接池会耗尽。

3.3 Metaflow：Netflix开源的“数据科学家友好型”方案

Metaflow专为降低数据科学家门槛而生。它最大的创新是把Git、conda、S3、AWS Batch全集成进一个CLI。你写完flow.py，执行metaflow run，它自动：

提交当前代码到Git（如果未提交则报错）；
创建conda环境并安装requirements.txt；
将输入数据从S3下载到本地临时目录；
在AWS Batch上启动EC2实例执行任务；
把输出结果（包括模型、日志、中间数据）自动上传到S3指定路径。

看这个真实案例：某广告团队用Metaflow做实时CTR预测。他们定义了一个@step：

from metaflow import FlowSpec, step, Parameter class CTRPredictFlow(FlowSpec): data_date = Parameter('data-date', default='2023-10-01') @step def start(self): from metaflow import current # 自动获取Git commit ID和参数 self.run_id = current.run_id self.next(self.load_data) @step def load_data(self): # 自动从S3读取，路径由data_date参数生成 self.data = pd.read_parquet( f's3://ad-data/raw/{self.data_date}/clicks.parquet' ) self.next(self.train_model)

执行python flow.py run --data-date 2023-10-01，整个流程就启动了。更绝的是metaflow resume命令——如果训练中断，它能精准恢复到失败的step，而不是从头开始。

但Metaflow的“友好”是有代价的：强绑定AWS生态。虽然官方说支持Azure和GCP，但文档和社区案例90%都是AWS。我们曾尝试迁移到阿里云，发现OSS的分段上传接口不兼容，最终放弃。另外，Metaflow的调试体验较差：本地调试需用python flow.py local，但本地环境和Batch环境可能不一致（比如CPU核数不同导致多进程行为差异）。

3.4 Airflow：老牌王者的自我救赎

Apache Airflow曾因“配置即代码”的复杂性被诟病多年，但2.0+版本的重构让它重获新生。新架构用SQLAlchemy做元数据库（支持PostgreSQL/MySQL），CeleryExecutor做分布式调度，最关键的是引入TaskFlow API，让DAG定义变得接近Python原生：

from airflow.decorators import dag, task from datetime import datetime @dag(schedule_interval="@daily", start_date=datetime(2023, 1, 1)) def ml_dag(): @task def extract() -> dict: return {"data": "raw_data"} @task def transform(data: dict) -> dict: return {"features": data["data"] + "_processed"} @task def train(features: dict): print(f"Training on {features['features']}") train(transform(extract())) ml_dag()

这段代码在Airflow UI里会自动生成DAG图，且每个task的输入输出自动序列化到XCom（跨任务通信机制）。

Airflow的最大优势是生态成熟度：超过2000个官方Operator（如S3ListOperator,RedshiftDataOperator），社区贡献的插件覆盖所有主流云厂商。我们用GoogleCloudStorageListOperator监控GCS桶里的新数据，触发VertexAIModelDeployOperator自动部署模型到Vertex AI。但它的致命弱点是资源模型僵化：每个task默认分配1个CPU核心和1GB内存，即使你只想跑一个ls命令。为了解决这个问题，我们给每个task加resources={"cpu": "0.1", "memory": "128Mi"}，但这需要K8s集群开启Vertical Pod Autoscaler（VPA），增加了运维复杂度。

常见问题：Airflow Scheduler内存泄漏。我们观察到Scheduler进程RSS内存每小时增长50MB，持续72小时后OOM。根本原因是DAG解析时缓存了所有导入的模块。解决方案是设置AIRFLOW__CORE__DAG_DISCOVERY_SAFE_MODE=True，并定期重启Scheduler（用K8s liveness probe实现）。

3.5 Flyte：Uber系的“强类型契约派”

Flyte和Kubeflow一样基于K8s，但理念截然不同：它认为类型安全是工作流可靠性的基石。在Flyte里，你不能定义一个返回Any的task，必须明确写出-> typing.NamedTuple("TrainingOutput", model=joblib.Model, metrics=dict)。这种强约束带来两大好处：

编译期就能发现类型错误（比如train输出的model类型是sklearn.ensemble.RandomForestClassifier，但deploy期望torch.nn.Module，Flyte编译直接报错）；
自动生成OpenAPI文档，下游系统（如监控平台）可直接解析接口契约。

我们用Flyte重构了一个金融风控模型。原来Airflow流程中，feature_engineering输出的df包含200+列，但model_training只用了其中37列。由于没有类型声明，当feature_engineering新增一列is_fraud_flag（布尔型），model_training的pd.get_dummies()意外把它转成两列，导致特征维度从37跳到39，模型预测失败。迁移到Flyte后，我们在feature_engineering的输出类型里明确声明：

from flytekit import task, workflow from typing import NamedTuple class FeaturesOutput(NamedTuple): X_train: pd.DataFrame # 列名和类型已固定 y_train: pd.Series # 必须是int64 feature_names: List[str] # 显式列出37个列名

这样任何变更都会在CI阶段被拦截。

Flyte的缺点是学习成本高。你需要理解Protobuf、gRPC、K8s Custom Resource等概念。我们团队花了3周才让第一个Pipeline跑通，主要卡在flytectl register命令的权限配置上——它需要K8s ServiceAccount有createupdategetlistwatchdeletepatchimpersonate七种权限。

3.6 MLflow Projects：轻量级场景的务实之选

如果你的团队只有3-5人，没有专职MLOps工程师，MLflow Projects是最务实的选择。它不试图做“全能编排”，而是专注解决实验可复现性这个最痛的点。核心思想是：每个项目是一个Git仓库，包含MLproject文件定义入口点和环境：

# MLproject name: my-ml-project conda_env: conda.yaml entry-points: train: parameters: data_path: {type: string, default: "data/train.csv"} max_depth: {type: int, default: 5} command: "python train.py --data-path {data_path} --max-depth {max_depth}"

执行mlflow run . -e train -P data_path=s3://my-bucket/data.csv，MLflow自动：

克隆当前Git commit；
创建conda环境；
下载S3数据到本地；
运行train.py；
把代码、参数、指标、模型全部记录到MLflow Tracking Server。

它的局限性也很明显：不支持复杂DAG。MLflow Projects只能串行执行单个入口点，无法表达train → validate → deploy这样的依赖链。我们的解决方案是用Shell脚本组合：

#!/bin/bash mlflow run . -e train -P data_path=$1 TRAIN_RUN_ID=$(cat mlruns/*/latest-train-run-id) # 从日志提取run_id mlflow run . -e validate -P train_run_id=$TRAIN_RUN_ID

虽然不够优雅，但在小团队快速迭代阶段足够用。关键是MLflow的UI提供了强大的对比功能：你可以并排查看10次训练的参数、指标、特征重要性图，一眼发现max_depth=8时验证集AUC开始下降，果断锁定最优超参。

3.7 Dagster：面向数据工程的“管道优先”思维

Dagster的定位很独特：它不把自己当作“ML工作流工具”，而是“数据应用编排平台”。因此它对数据资产（Asset）的抽象比其他工具都深。在Dagster里，你定义的不是“任务”，而是“资产”：

from dagster import asset, AssetIn, AssetOut, multi_asset @asset( ins={"raw_data": AssetIn(key="s3://bucket/raw")}, outs={"cleaned_data": AssetOut(key="s3://bucket/cleaned")} ) def clean_data(raw_data: pd.DataFrame) -> pd.DataFrame: return raw_data.dropna() @multi_asset( outs={ "model": AssetOut(key="s3://bucket/model"), "metrics": AssetOut(key="s3://bucket/metrics") } ) def train_model(cleaned_data: pd.DataFrame): model = train(cleaned_data) metrics = evaluate(model, cleaned_data) yield Output(model, output_name="model") yield Output(metrics, output_name="metrics")

Dagster会自动构建资产依赖图，并提供dagster instance migrate命令做元数据迁移。这让我们在数据源变更时受益巨大：当上游数据湖把user_id字段从string改为bigint，Dagster的asset_check能提前发现clean_data的输入schema不匹配，阻止整个Pipeline启动。

但Dagster的陡峭学习曲线体现在概念抽象层。你需要理解RepositoryDefinition,JobDefinition,ScheduleDefinition等概念。我们团队初期最大的困惑是：为什么定义一个简单训练任务要写5个装饰器？后来明白这是为了分离关注点——@asset定义数据契约，@job定义执行上下文，@schedule定义触发逻辑。这种分离让大型项目（如跨10个业务线的统一特征平台）的维护成本大幅降低。

4. 实操决策树：根据你的现状选工具

4.1 四维评估法：别只看GitHub Stars

选型不能只看“谁更火”，必须结合自身现状做四维评估：

维度	关键问题	高风险信号	推荐工具
基础设施成熟度	是否已有K8s集群？是否有专职SRE？	K8s集群<6个月，无RBAC配置经验	MLflow Projects, Prefect
团队技能栈	算法工程师是否熟悉Python异步编程？运维是否掌握Docker网络？	90%成员只会写`pip install`	Metaflow, MLflow
合规要求	是否需满足GDPR/等保2.0？是否要求所有数据不出内网？	审计要求所有日志留存180天，且不可修改	Kubeflow, Dagster（自建存储）
扩展性需求	未来6个月是否要接入实时数据流（Kafka/Flink）？是否要支持多云？	已规划混合云架构（AWS+阿里云）	Flyte, Prefect

我们曾用这个表格帮一家保险科技公司做选型。他们有K8s集群但SRE只有1人，算法团队全是R语言背景。最终选择Prefect + R subprocess方案：Prefect负责调度和状态管理，R代码用CLI封装，既满足K8s部署要求，又不强迫算法工程师学Python。

4.2 从PoC到生产的三步走策略

任何工具落地都要经历三个阶段，跳过任一阶段都会失败：

阶段1：单点验证（1周）
目标：证明工具能在你的环境中跑通最简流程。

步骤：用iris数据集写一个load → train → predict三步Pipeline；
关键检查点：
- 任务失败后能否在UI看到完整堆栈跟踪？
- 执行日志是否包含start_time,end_time,duration_ms？
- 输出模型文件是否带时间戳和任务ID（如model_20231001_142305.pkl）？

阶段2：流程贯通（2周）
目标：打通从数据准备到模型部署的全链路。

步骤：用真实业务数据（哪怕只有100行）跑通extract → transform → train → evaluate → deploy；
关键检查点：
- transform输出的特征文件，train能否正确读取（验证SHA256哈希）？
- deploy步骤是否生成可curl调用的REST API端点？
- 整个流程从触发到API可用，耗时是否<15分钟？（超时说明环境配置有问题）

阶段3：生产加固（3周）
目标：满足7×24小时运维要求。

步骤：
- 配置Prometheus监控task_success_rate,pipeline_duration_seconds；
- 设置Slack告警：连续3次失败触发@ml-ops；
- 实现灰度发布：新模型先处理5%流量，AUC达标再全量。
关键检查点：
- 故障注入测试：手动kill一个task pod，系统是否在2分钟内自动重启？
- 权限审计：非管理员能否删除历史运行记录？（应禁止）
- 日志保留：所有日志是否归档到S3且加密？

实操心得：很多团队卡在阶段2，因为低估了“数据一致性”的难度。我们的经验是：在transform和train之间加一个schema_validationtask，用Great Expectations库校验输出DataFrame的列名、类型、缺失率。这个task增加2秒耗时，但避免了90%的线上事故。

5. 避坑指南：那些文档里不会写的血泪教训

5.1 时间戳陷阱：为什么UTC时间救了我们三次

所有工具都支持“定时调度”，但默认时区常被忽略。我们曾用Airflow每天凌晨2点触发训练，但发现模型总是用到昨天的数据。排查发现：Airflow Scheduler运行在UTC时区，而schedule_interval="@daily"的“每天”指UTC每天00:00，对应北京时间上午8点。此时上游数据湖的ETL还没完成（通常8:30才结束），导致训练用的是陈旧数据。

解决方案：

Airflow：在DAG定义中显式指定timezone=pendulum.timezone("Asia/Shanghai")；
Prefect：用CronSchedule(cron="0 0 * * *", timezone="Asia/Shanghai")；
Kubeflow：在Pipeline YAML里加spec.trigger.cronSchedule.timezone: Asia/Shanghai。

注意：K8s集群节点的系统时区必须和调度器一致！我们曾因节点时区是UTC而调度器是CST，导致Pod启动时间错乱。用kubectl get nodes -o wide检查INTERNAL-IP列，再kubectl exec node-pod -- date确认时区。

5.2 存储路径战争：S3 vs NFS vs Local

工作流工具需要存储中间数据（如特征文件、模型权重），但存储选型直接影响性能和可靠性：

存储类型	适用场景	风险点	我们的配置
S3/Object Storage	跨区域协作、长期归档	最终一致性延迟（PUT后GET可能404）	启用S3 EventBridge通知，`train`task监听`ObjectCreated:*`事件
NFS	高频小文件读写（如TensorBoard日志）	单点故障、锁竞争严重	用`nfs-client-provisioner`动态创建PV，`accessModes: [ReadWriteMany]`
Local Disk	单机快速验证、GPU显存直通	Pod重启后数据丢失	用`emptyDir: {medium: Memory}`挂载tmpfs，避免IO瓶颈

最惨烈的事故：某次用NFS存储特征文件，transform写入时deploy同时读取，因NFS锁机制导致deploy卡死30分钟。最终方案是所有中间数据走S3，只用NFS存TensorBoard日志——因为日志是append-only，无锁竞争。

5.3 权限地狱：ServiceAccount不是摆设

在K8s环境，权限配置错误是失败主因。我们统计过，72%的Kubeflow失败源于RBAC。典型错误：

给Pipeline ServiceAccount只赋了get pods权限，但traintask需要create jobs；
用cluster-admin权限测试成功，生产环境降权后所有S3操作403；
Secret挂载到Pod，但容器内用户UID不是1001（默认），导致Permission denied。

解决方案：

用kubectl auth can-i --list --as=system:serviceaccount:default:my-pipeline-sa检查权限；
所有Secret挂载后，kubectl exec pod -- ls -l /secret/确认权限位是-r--r--r--；
容器内用id -u确认UID，Dockerfile里加USER 1001。

5.4 日志黑洞：为什么ELK不如直接存S3

很多团队用ELK（Elasticsearch+Logstash+Kibana）收集日志，但发现查询慢、存储贵、还丢日志。我们改用S3+Parquet+Presto方案：

每个task执行时，将stdout/stderr实时写入/tmp/logs/task-{id}.log；
任务结束，用aws s3 cp /tmp/logs/ s3://my-bucket/logs/ --recursive上传；
用Presto SQL查询：SELECT * FROM logs WHERE task_id = 'train-20231001' AND log_level = 'ERROR'。

优势：

S3存储成本是Elasticsearch的1/20；
Parquet列式存储让WHERE log_level = 'ERROR'查询速度提升10倍；
所有日志永久保存，审计无忧。

提示：别用print()打日志！用logging.getLogger(__name__).info()，并配置JsonFormatter，这样日志结构化，Presto能直接解析{"level": "INFO", "message": "training started"}。

6. 未来演进：从编排到自治

工作流编排的终极形态不是“自动化”，而是“自治化”。我们已在试点两个方向：

方向1：智能重试策略
传统工具重试是固定次数（如3次），但实际中：

网络超时（requests.exceptions.Timeout）应立即重试；
GPU内存不足（CUDA out of memory）应降batch_size后重试；
数据格式错误（pandas.errors.ParserError）应告警人工介入。

我们给Prefect加了自定义RetryPolicy：

from prefect.engine.retry_policies import RetryPolicy class SmartRetry(RetryPolicy): def should_retry(self, state): if "CUDA out of memory" in state.message: self.context["batch_size"] //= 2 return True return super().should_retry(state)

方向2：预测性故障检测
用历史运行数据训练LSTM模型，预测当前Pipeline失败概率。当predict_failure_prob > 0.8时，自动：