当前位置：首页 > news >正文

一行代码跑遍所有sklearn模型：Lazypredict自动化初筛实战

news 2026/6/25 17:05:41

1. 项目概述：用一行代码跑遍所有 scikit-learn 算法，真不是噱头

你有没有过这种经历：拿到一个新数据集，想快速摸清它“适合什么模型”，结果光是导入LogisticRegression、RandomForestClassifier、SVC、XGBClassifier……再挨个写fit()、predict()、cross_val_score()，十几分钟就过去了？更别提调参、统一评估指标、整理结果表格——还没开始分析，人已经陷入“模型选择疲劳”。而Lazypredict就是为解决这个高频痛点而生的：它不是玩具库，不是教学演示工具，而是一个经过生产环境反复验证的“算法初筛加速器”。核心就一句话：把数据准备好，调用LazyClassifier()或LazyRegressor()，一行代码启动全量 sklearn 模型并行训练与交叉验证，5 分钟内输出带准确率、F1、训练耗时、预测耗时的完整排行榜。它不替代你的建模判断，但能帮你把“该从哪个模型下手”这个模糊问题，变成一张清晰、可排序、带时间成本的决策表。关键词直击本质：sklearn 全模型自动调用、零手动循环、标准化评估、结果可比、开箱即用。适合三类人：刚学完 sklearn 的新手（跳过重复造轮子，专注理解模型差异）；数据科学项目前期快速验证者（客户催着要 baseline，你得在会议前给出靠谱参考）；以及老手做模型选型兜底（防止因经验惯性漏掉某个冷门但适配的算法）。我第一次在客户现场用它跑一个 8 万行电商用户流失数据，3 分 42 秒后，GradientBoostingClassifier和HistGradientBoostingClassifier并列第一，而我原本准备主推的XGBoost反倒排第 7——这个反直觉结果直接改变了后续两周的建模路径。这不是魔法，而是把 sklearn 的接口规范、交叉验证逻辑、结果归一化这些“体力活”彻底封装，让你的注意力真正回到业务问题本身。

2. 核心设计思路与底层逻辑拆解

2.1 为什么不是简单 for 循环？Lazypredict 的架构取舍

表面上看，“遍历所有 sklearn 模型”似乎用一个for model in [model1, model2, ...]就能搞定。但实际落地时，你会立刻撞上四堵墙：接口不一致、参数默认值冲突、异常容忍度低、结果无法横向对比。比如LinearSVC默认不支持predict_proba()，而RandomForestClassifier支持；KNeighborsClassifier对缺失值零容忍，HistGradientBoostingClassifier却能自动处理；SVC在小样本上可能收敛失败，MLPClassifier则需要标准化预处理——如果硬写 for 循环，你得为每个模型单独加 try-except、单独写预测逻辑、单独定义评估指标，最终代码量爆炸且极易出错。Lazypredict 的核心设计哲学是：不追求“全部运行成功”，而追求“全部公平参与初筛”。它通过三层抽象实现这一目标：

第一层是模型注册中心（Model Registry）。它不硬编码模型列表，而是动态扫描sklearn官方模块（sklearn.ensemble,sklearn.svm,sklearn.linear_model等），按ClassifierMixin或RegressorMixin接口自动识别兼容类，并过滤掉明显不适用的（如Pipeline、GridSearchCV自身）。这意味着你升级 sklearn 后，新版本加入的CalibratedClassifierCV或VotingClassifier会自动纳入筛选范围，无需改 Lazypredict 源码。

第二层是统一执行引擎（Unified Executor）。它强制所有模型走同一套流程：

输入数据先做浅层校验（检查是否为 numpy array / pandas DataFrame，标签是否为一维）；
对每个模型，自动处理fit()前的必要预处理（如StandardScaler仅对线性模型启用，树模型跳过）；
统一使用cross_val_score（分类用stratified k-fold，回归用k-fold），固定cv=3或cv=5（可配置），避免因交叉验证策略不同导致结果失真；
关键预测阶段，它智能降级：若模型无predict_proba()，则用decision_function()或直接predict()替代，确保 F1、AUC 等指标仍可计算（AUC 用predict()生成的 label 二值结果计算，虽不完美但保证可比性）。

第三层是结果归一化管道（Result Normalizer）。所有模型输出被强制映射到同一字段结构：model_name,accuracy,balanced_accuracy,f1,precision,recall,train_time,pred_time,models（存储已训练实例）。这里有个关键细节：train_time和pred_time不是单次运行耗时，而是cross_val_score内部 3~5 折的平均值，且排除了数据加载和预处理时间——这保证了“模型本身训练效率”的纯粹对比。我实测过，在 16G 内存的笔记本上跑 30 个分类器，train_time差异最大达 200 倍（PassiveAggressiveClassifier< 0.1s vsGaussianProcessClassifier> 20s），这个数字比准确率更能决定你是否该把它放进生产 pipeline。

2.2 为什么只支持 sklearn？生态边界与能力克制

有人会问：“为什么不支持 XGBoost、LightGBM、CatBoost？” Lazypredict 的作者在 GitHub Issues 里明确回答过：它的定位是“sklearn 生态的自动化探针”，而非通用模型调度器。这个克制恰恰是专业性的体现。原因有三：
第一，接口契约性。sklearn 所有 estimator 都严格遵循fit(X, y)、predict(X)、score(X, y)三接口，且get_params()/set_params()语义统一。XGBoost 的fit()需要eval_set，LightGBM 要categorical_feature，CatBoost 的fit()甚至接受cat_features参数——强行统一会破坏原生 API 的语义，导致用户误以为“调用成功=可用”，实则埋下线上故障隐患。
第二，依赖轻量化。Lazypredict 的setup.py仅声明scikit-learn>=1.0.0为硬依赖，安装包体积 < 50KB。若引入 XGBoost（~15MB）、LightGBM（~20MB），它就从“秒装工具”退化为“编译噩梦”，尤其在 CI/CD 环境或 Docker 构建中，会显著拖慢流程。我见过团队因 LightGBM 编译失败导致整个数据验证 pipeline 卡住 2 小时的案例。
第三，问题域聚焦。90% 的 Kaggle 新手入门、企业内部 BI 部门快速建模、学术论文 baseline 复现，其初始模型池 80% 都在 sklearn 范围内。Lazypredict 解决的是“从 0 到 1 的模型广度探索”，而非“从 1 到 N 的深度优化”。当你用它圈定HistGradientBoostingClassifier表现最优后，自然会切到sklearn.ensemble.HistGradientBoostingClassifier手动调参——这才是合理的工作流：Lazypredict 是望远镜，帮你锁定星系；后续调参是显微镜，负责观察恒星细节。

2.3 并行机制与资源控制：如何避免笔记本变砖

默认情况下，Lazypredict 使用joblib.Parallel启动多进程（n_jobs=-1表示用满所有 CPU 核心）。这在服务器上很爽，但在 4 核 8 线程的笔记本上，30 个模型同时跑，内存瞬间飙到 12GB，风扇狂转，系统卡死。它的聪明之处在于提供了两层资源闸门：

进程级限流：通过n_jobs参数直接控制并发数。我日常设为n_jobs=2，既保证速度（比单进程快 1.8 倍），又让系统保持响应。实测n_jobs=3时，GaussianProcessClassifier这种内存怪兽会触发MemoryError，而n_jobs=2下它能稳定完成。
模型级熔断：对已知高耗资源的模型（如GaussianProcessClassifier,NearestCentroid），Lazypredict 内置超时机制。当单个模型fit()耗时超过timeout=120秒（可配置），进程自动终止并标记Failed，不影响其他模型继续运行。这个 timeout 不是粗暴 kill，而是通过joblib的backend='loky'实现安全中断，避免僵尸进程残留。
更关键的是，它不强制所有模型都参与。你可以用ignore_warnings=True屏蔽ConvergenceWarning等非致命警告，用custom_metric注入自定义评估函数（比如电商场景的f1_score(y_true, y_pred, pos_label='churn')），甚至用exclude_models=['DummyClassifier']主动剔除明显不适用的基线模型。这种“可配置的暴力”，才是工程化工具该有的样子——给你全力一搏的选项，也给你精准控场的开关。

3. 核心细节解析与实操要点

3.1 数据准备：那些被忽略的“前置清洁”陷阱

Lazypredict 对数据格式要求看似宽松（支持 pandas DataFrame、numpy array），但实际运行中，80% 的失败源于数据预处理的“隐形坑”。我踩过的最深的三个坑，必须提前预警：

坑一：标签（y）必须是 1D 数组，且不能含 NaN。
新手常犯错误：用pandas.read_csv('data.csv')直接读取，其中y列是object类型（含字符串'True'/'False'），或混有空值。Lazypredict 在fit()前不做类型转换，直接抛ValueError: Unknown label type。正确做法是：

# 错误示范（看似正常，实则埋雷） y = df['target'] # 若含 'yes'/'no' 字符串，会报错 # 正确示范：显式清洗 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() y_clean = le.fit_transform(df['target'].fillna('missing')) # 先填空，再编码 # 或更鲁棒：用 pandas categorical y_clean = df['target'].astype('category').cat.codes

提示：LabelEncoder会将['cat', 'dog', 'bird']编码为[0,1,2]，顺序由字母序决定。若业务有强序（如['low','medium','high']），务必用pd.Categorical(..., categories=['low','medium','high'])显式指定顺序，否则模型会误学错误序关系。

坑二：特征（X）中的类别型变量未处理，导致树模型报错。
sklearn 的树模型（DecisionTree,RandomForest）能天然处理数值型特征，但遇到object类型的字符串列（如['A','B','C']），会直接ValueError: could not convert string to float。很多人以为 “树模型不用 one-hot”，这是误解——sklearn 实现要求所有输入必须是数值型。解决方案只有两个：

Label Encoding（适用于有序类别）：X['col'] = X['col'].astype('category').cat.codes
One-Hot Encoding（适用于无序类别）：pd.get_dummies(X, columns=['col1','col2'], drop_first=True)
注意：drop_first=True避免虚拟变量陷阱（多重共线性），这对线性模型至关重要，对树模型影响不大但能减小特征维度。我习惯对所有object列先df[col].nunique() / len(df) < 0.05判断是否为低基数类别，低基数用 one-hot，高基数（如用户 ID）则直接剔除——Lazypredict 的初筛阶段，不该为脏数据浪费算力。

坑三：缺失值（NaN）未统一处理，导致部分模型静默失败。
LinearRegression、SVM等线性模型无法处理 NaN，会直接报错；而HistGradientBoostingClassifier、KNN却能自动跳过或插补。若你放任 NaN 存在，Lazypredict 会显示LinearRegression: Failed，但不会告诉你失败原因是缺失值——它只记录异常类型，不解析根因。最稳妥的方案是：

# 用 sklearn 的 SimpleImputer 做全局填充（推荐均值/众数） from sklearn.impute import SimpleImputer num_imputer = SimpleImputer(strategy='mean') # 数值型用均值 cat_imputer = SimpleImputer(strategy='most_frequent') # 类别型用众数 X_num = num_imputer.fit_transform(X.select_dtypes(include=[np.number])) X_cat = cat_imputer.fit_transform(X.select_dtypes(include=['object'])) X_clean = np.hstack([X_num, X_cat])

注意：SimpleImputer必须用fit_transform而非transform，否则在后续 pipeline 中会因未拟合报错。这个细节在 Lazypredict 文档里没强调，但它是保证结果可复现的关键。

3.2 结果解读：别被“准确率第一”带偏了

Lazypredict 输出的resultsDataFrame 默认按accuracy降序排列，但这恰恰是最危险的排序方式。我处理过一个医疗诊断数据集（正样本率 3%），DummyClassifier(strategy='most_frequent')准确率 97%，排第一；而真正的临床有用模型RandomForest准确率仅 72%，却排第 28 名——如果只看 top3，你会错过所有有价值的模型。必须掌握三个关键重排序维度：

维度一：业务指标优先（如召回率 Recall）。
在欺诈检测、疾病筛查等场景，漏判（False Negative）代价远高于误判（False Positive）。此时应按recall排序：

results.sort_values('recall', ascending=False).head(5)

实测中，ExtraTreesClassifier在我的信用卡盗刷数据上 recall 达 89%，虽 accuracy 仅 76%，但它能抓住 89% 的真实盗刷，这才是业务 KPI。

维度二：效率-效果平衡（综合得分）。
单纯看accuracy忽略了时间成本。我自定义了一个加权得分公式：

# 权重：准确率占 70%，训练时间倒数占 30%（时间越短分越高） results['score'] = 0.7 * results['accuracy'] + 0.3 * (1 / (results['train_time'] + 1e-6)) results.sort_values('score', ascending=False).head(5)

加1e-6避免除零。这个公式让HistGradientBoostingClassifier（accuracy 0.85, train_time 12s）得分 0.847，而GaussianProcessClassifier（accuracy 0.86, train_time 180s）得分仅 0.742——后者虽精度高 1%，但训练慢 15 倍，综合价值更低。

维度三：稳定性验证（交叉验证标准差）。
Lazypredict 默认只返回mean评分，但std才反映模型鲁棒性。你需要手动补全：

from sklearn.model_selection import cross_val_score import numpy as np # 对 top 模型重新跑 5 折 CV，获取 std scores = cross_val_score(best_model, X, y, cv=5, scoring='f1') print(f"F1: {scores.mean():.3f} ± {scores.std():.3f}")

若std > 0.05，说明模型在不同数据子集上表现波动大，需警惕过拟合。我在一个用户分群项目中发现SVC的 f1 mean 0.78，但 std 高达 0.12，切到RandomForest后 std 降至 0.03——稳定性提升比绝对精度提升更重要。

3.3 模型实例提取：如何把“排行榜冠军”变成可部署对象

Lazypredict 最实用的功能之一，是它把每个训练好的模型实例都存进了results['models']列。很多人只看表格就结束，却不知这列里藏着可直接用于生产的对象。提取步骤极简：

# 假设 HistGradientBoostingClassifier 是 top1 top_model = results.iloc[0]['models'] # 直接获取已训练实例 # 验证它是否真的能 predict y_pred = top_model.predict(X_test) # 保存模型（推荐 joblib，比 pickle 更高效） import joblib joblib.dump(top_model, 'best_model.joblib') # 后续加载 loaded_model = joblib.load('best_model.joblib')

注意：results['models']存储的是sklearn原生 estimator，不包含任何预处理步骤（如 StandardScaler、LabelEncoder）。这意味着你必须在predict前，对X_test执行与训练时完全相同的清洗、编码、缩放操作。我建议把预处理逻辑封装成函数：

def preprocess_data(X_raw): X = X_raw.copy() # 填充缺失值 X = X.fillna(X.median(numeric_only=True)) # 数值型用中位数 X = X.fillna(X.mode().iloc[0]) # 类别型用众数 # 类别编码 for col in X.select_dtypes(include=['object']).columns: X[col] = X[col].astype('category').cat.codes return X X_test_clean = preprocess_data(X_test) y_pred = top_model.predict(X_test_clean)

这个函数必须和模型一起保存（如写入preprocess.py文件），否则模型文件单独存在毫无意义。Lazypredict 不负责端到端 pipeline，它只保证“模型训练”这一步的自动化——这是专业分工的体现。

4. 实操过程与核心环节实现

4.1 从零开始：5 分钟完成一次完整初筛

我们以经典的breast_cancer数据集为例，演示完整流程。这不是玩具，而是你明天就能用在自己数据上的脚本：

Step 1：环境准备与安装（30 秒）

# 创建干净虚拟环境（强烈推荐，避免 sklearn 版本冲突） python -m venv lazy_env source lazy_env/bin/activate # Linux/Mac # lazy_env\Scripts\activate # Windows pip install scikit-learn lazypredict pandas numpy

提示：Lazypredict 依赖 sklearn >=1.0.0，若你系统已有旧版 sklearn（如 0.24），pip install lazypredict会自动升级。升级前建议备份pip freeze > requirements.txt，以防其他项目受影响。

Step 2：数据加载与基础清洗（1 分钟）

from sklearn.datasets import load_breast_cancer import pandas as pd import numpy as np # 加载数据 data = load_breast_cancer() X = pd.DataFrame(data.data, columns=data.feature_names) y = pd.Series(data.target) # 快速检查数据质量 print(f"Shape: {X.shape}") print(f"Missing values: {X.isnull().sum().sum()}") print(f"Target balance:\n{y.value_counts(normalize=True)}") # 输出：Shape: (569, 30), Missing values: 0, Target balance: 0 0.627, 1 0.373 # 说明：数据干净，类别稍不平衡（良性 62.7%，恶性 37.3%），无需过采样

Step 3：Lazypredict 核心调用（10 秒）

from lazypredict.Supervised import LazyClassifier from sklearn.model_selection import train_test_split # 划分训练测试集（Lazypredict 只用训练集做 CV，测试集留作最终验证） X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 初始化 LazyClassifier（关键参数详解） clf = LazyClassifier( verbose=0, # 0=静默模式，1=打印每个模型进度，2=详细日志 ignore_warnings=True, # 屏蔽 ConvergenceWarning 等非致命警告 custom_metric=None, # 使用默认 metrics（accuracy, balanced_accuracy...） predictions=False, # False=只返回评估结果，True=额外返回预测值（增大内存） random_state=123, # 固定随机种子，保证结果可复现 classifiers='all' # 'all'=全部模型，或传入列表如 ['RandomForestClassifier', 'SVC'] ) # 一行代码启动！ models, predictions = clf.fit(X_train, X_test, y_train, y_test) # 注意：这里 y_test 是可选的，若不传，则只做 CV 评估，不计算测试集指标

实测耗时：在我的 MacBook Pro (M1, 16GB) 上，30 个分类器，cv=3，耗时 2 分 18 秒。verbose=1会实时打印Fitting LogisticRegression... Done (0.82s)，方便监控进度。

Step 4：结果分析与导出（1 分钟）

# 查看 top10 模型（按 accuracy） print(models.head(10)) # 导出为 Excel（便于分享给非技术人员） models.to_excel('lazypredict_results.xlsx', index=False) # 可视化关键指标（用 seaborn） import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(12, 6)) # 绘制 accuracy vs train_time 散点图 sns.scatterplot(data=models, x='train_time', y='accuracy', hue='model_name', s=100) plt.title('Model Accuracy vs Training Time') plt.xlabel('Train Time (s)') plt.ylabel('Accuracy') plt.xscale('log') # 时间跨度大，用对数刻度 plt.show()

这张图会清晰显示：LinearSVC训练最快（<0.1s）但 accuracy 中等（0.95），RandomForest训练较慢（~2s）但 accuracy 最高（0.98）——业务决策就在这张图里。

4.2 进阶技巧：定制化你的初筛流水线

技巧一：用custom_metric注入业务专属指标。
假设你是电商风控，核心指标是precision（避免误杀正常用户），而非accuracy：

from sklearn.metrics import precision_score def custom_precision(y_true, y_pred): return precision_score(y_true, y_pred, zero_division=0) clf = LazyClassifier(custom_metric=custom_precision) models, _ = clf.fit(X_train, X_test, y_train, y_test) # 结果 DataFrame 新增列 'custom_metric'，按此列排序即可 models.sort_values('custom_metric', ascending=False).head(5)

技巧二：排除“无效竞争者”，加速运行。
对小数据集（<1000 行），GaussianProcessClassifier、MLPClassifier几乎必败，还拖慢整体。主动剔除：

from sklearn.ensemble import RandomForestClassifier from sklearn.svm import SVC # 只保留你信任的 5 个模型 my_models = [ RandomForestClassifier(), SVC(), LogisticRegression(), GradientBoostingClassifier(), HistGradientBoostingClassifier() ] clf = LazyClassifier(classifiers=my_models) # 传入实例列表，非字符串

这样运行时间从 2 分钟缩短到 25 秒，且结果更聚焦。

技巧三：结果持久化与增量更新。
Lazypredict 不保存中间状态，但你可以轻松实现：

import pickle # 保存完整结果（含模型实例） with open('lazypredict_full.pkl', 'wb') as f: pickle.dump({'models_df': models, 'predictions': predictions}, f) # 后续加载，无需重跑 with open('lazypredict_full.pkl', 'rb') as f: saved = pickle.load(f) top_model = saved['models_df'].iloc[0]['models']

注意：pickle保存的模型与当前 sklearn 版本强绑定。生产环境推荐joblib，它对 numpy 数组序列化更高效，且兼容性更好。

5. 常见问题与排查技巧实录

5.1 典型报错与根因速查表

报错信息	根本原因	解决方案	我的实操心得
`ValueError: Input contains NaN, infinity or a value too large for dtype('float64')`	X 或 y 中存在 NaN、inf 或极大数值（如 1e300）	用`X.replace([np.inf, -np.inf], np.nan).dropna()`清洗；对数值特征做`np.clip(X, -1e6, 1e6)`截断	这个报错最常见，但错误位置指向 Lazypredict 内部，新手常误以为是库 bug。其实 99% 是数据问题，先`X.describe()`查看`max/min/std`就能定位
`ModuleNotFoundError: No module named 'xgboost'`	你代码里写了`import xgboost`，但 Lazypredict 未安装它（它不依赖 xgboost）	删除无关 import；若真需 xgboost，手动安装`pip install xgboost`，但 Lazypredict 仍不会调用它	Lazypredict 的 import 是纯净的，它只 import sklearn。任何第三方库报错，都是你自己的环境问题，与 Lazypredict 无关
`MemoryError`	并发模型过多或单个模型（如`GaussianProcessClassifier`）内存爆炸	设置`n_jobs=1`或`n_jobs=2`；用`timeout=60`限制单模型耗时；或`exclude_models=['GaussianProcessClassifier']`	我的笔记本（16GB）跑 30 模型`n_jobs=-1`必崩。`n_jobs=2`是黄金值：速度损失不到 20%，但内存占用下降 60%
`ConvergenceWarning`（大量出现）	某些迭代模型（`SGDClassifier`,`MLPClassifier`）未在 max_iter 内收敛	设`ignore_warnings=True`（默认），或手动增加`max_iter`（需传入自定义模型实例）	这些 warning 不影响结果，只是提示“模型没完全收敛”。Lazypredict 的初筛目标是快速比较，不是追求理论最优解
`KeyError: 'models'`	你试图访问`results['models']`，但`predictions=False`（默认）时该列不存在	初始化`LazyClassifier(predictions=True)`，或改用`results.iloc[i]['models']`（索引访问）	`predictions=False`时，`results`DataFrame 只有评估指标列，`models`列被省略以节省内存。这是设计特性，不是 bug

5.2 性能瓶颈深度排查：CPU、内存、I/O 三维度

当 Lazypredict 运行缓慢，不要盲目调n_jobs。先用系统工具定位瓶颈：

CPU 瓶颈（最常见）：

现象：top命令显示 Python 进程 CPU 占用 90%+，但内存稳定。
根因：模型训练计算密集（如MLPClassifier的矩阵运算）。
解法：降低n_jobs，或剔除高计算模型（MLPClassifier,GaussianProcessClassifier）。

内存瓶颈（次常见）：

现象：系统变卡，htop显示内存使用率 >95%，swap 分区被大量使用。
根因：joblib多进程复制了多份X_train（每个进程一份），数据越大越明显。
解法：
1. 用memory_limit参数限制单进程内存（需joblib>=1.2）；
2. 对大数据集，先X_train = X_train.astype(np.float32)降精度（节省 50% 内存）；
3. 最狠一招：X_train = X_train.sample(frac=0.5, random_state=42)随机抽样 50% 数据初筛（Lazypredict 的本意就是快速探索，非精确评估）。

I/O 瓶颈（易被忽视）：

现象：硬盘灯狂闪，iostat -x 1显示%util100%，但 CPU/内存不高。
根因：joblib的临时文件写入（/tmp/joblib_XXXX）。
解法：设置joblib缓存路径到 SSD：

import joblib joblib.dump(clf, '/path/to/ssd/cache.joblib') # 强制缓存到 SSD # 或全局设置 import tempfile tempfile.tempdir = '/path/to/ssd/tmp'

5.3 与真实工作流的无缝集成：从初筛到上线

Lazypredict 不是终点，而是起点。我团队的标准工作流如下：

阶段一：Lazypredict 初筛（<10 分钟）

输入：清洗后的X_train,y_train
输出：top3_models（按业务指标排序）

阶段二：深度验证（1-2 小时）

对top3_models，用sklearn.model_selection.validation_curve绘制学习曲线，确认是否过拟合；
用sklearn.inspection.permutation_importance分析特征重要性，验证业务逻辑；
用shap.Explainer生成 SHAP 值，向业务方解释“为什么这个用户被判为高风险”。

阶段三：生产化封装（<30 分钟）

将选定模型 + 预处理函数打包成scikit-learn Pipeline：

from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.ensemble import HistGradientBoostingClassifier pipeline = Pipeline([ ('scaler', StandardScaler()), # 仅对线性模型启用 ('classifier', HistGradientBoostingClassifier()) ]) pipeline.fit(X_train, y_train) # Pipeline 自动处理 fit/transform joblib.dump(pipeline, 'prod_pipeline.joblib')