当前位置: 首页 > news >正文

DAY27 pipeline管道

一、知识回顾:

1、转化器和估计器的概念

(1)转换器

转化器通俗的来说就是对数据进行预处理的工具,转换器的特点是无状态的,即它们不会存储任何关于数据的状态信息(指的是不存储内参),根据输入数据学习转换规则(比如函数规律、外参),并将其应用于新的数据。

代码示例:

from sklearn.preprocessing import StandardScaler # 初始化转换器 scaler = StandardScaler() # 1. 学习训练数据的缩放规则(计算均值和标准差),本身不存储数据 scaler.fit(X_train) # 2. 应用规则到训练数据和测试数据 X_train_scaled = scaler.transform(X_train)

(2)估计器

估计器是实现机器学习算法的对象或类。估计器的主要方法是fit和predict。fit方法用于根据输入数据,学习模型的参数和规律,而predict方法用于对新的未标记样本进行预测。估计器的特点是有状态的,它们在训练过程中存储了关于数据的状态信息,以便在预测阶段使用。

参考代码:

from sklearn.linear_model import LinearRegression # 创建一个回归器 model = LinearRegression() # 在训练集上训练模型 model.fit(X_train_scaled, y_train) # 对测试集进行预测 y_pred = model.predict(X_test_scaled)

2、管道工程

机器学习的管道机制通过将多个转换器和估计器按顺序连接在一起,可以构建一个完整的数据处理和模型训练流程。具体而言,在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。

二、pipeline管道架构的搭建

1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具,并加载原始数据。

2、分离特征和标签,划分数据集

3、定义预处理步骤

(1)识别原始的 object 列

非数值型->离散变量:

(2)构建处理有序特征的 Pipeline:先填充缺失值,再进行有序编码

(3)构建处理标称特征的 Pipeline:先填充缺失值,再进行独热编码

连续性数值

(4)直接从所有列中排除已知的有序和标称特征,构建处理连续特征的 Pipeline: 先填充缺失值,再进行标准化。

(5)基于以上形成的三种Pipeline构建 ColumnTransformer,将不同的预处理应用于不同的列子集,构造一个完备的转化器。

(6)构建完整的 Pipeline,将预处理器和模型串联起来(加入估计器

(7)使用 Pipeline 对模型进行训练和评估。

@浙大疏锦行

http://www.jsqmd.com/news/106695/

相关文章:

  • 【毕业设计】基于Javaweb的租车管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 越努力,越不幸
  • 计算机小程序毕设实战-基于springboot+微信小程序的校园生活娱乐学习活动管理系统设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 小程序毕设项目:基于springboot+微信小程序的公务员助学系统小程序的设计与实现(源码+文档,讲解、 调试运行,定制等)
  • II CZOI Round 7P14081 「CZOI-R7」炸弹游戏
  • 基于LangBot的插件编写
  • 计算机小程序毕设实战-基于springboot+微信小程序的应急救援小能手软件系统的设计与实现学习火灾、地震、急救等应急知识【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 亚马逊卖家容易失误的3个坑,有人这样做亏了10w!
  • 西门子博途1200-V/N积分法卷径计算功能块(SCL源代码)在收放卷设备中的应用
  • 计算机小程序毕设实战-基于springboot+微信小程序的跑腿小程序的设计与实现基于微信程序的跑腿平台的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • PostgreSQL数据库
  • LSTM,PSO-LSTM,SSA-LSTM,SSA-CNN-LSTM四种算法做数多分类
  • mysql面试题整理
  • 技术成果的价值量化方法
  • 基于PowerShell的Windows服务命令行管理器
  • sizeof 核心原理:编译期的 “内存大小计算器”
  • IPv6违规外联防御指南:从风险盲区到可管可控
  • 直接上手玩转遗传算法,先搞个简单的函数最值问题热热身。比如找f(x)=x²的最小值,这玩意儿小学生都能秒答,但咱们用遗传算法折腾一下。先看看种群初始化代码
  • GitLab讲解
  • 算法驱动搜索变革:亚马逊新规则,卖家如何赢下曝光争夺战?
  • 汇编语言全接触-33.RichEdit 控件基础知识
  • 【光照】[PBR][镜面反射]实现方法解析
  • 从“十五五”规划建议看智慧医疗重点发展方向
  • 汇编语言全接触-32.多文档界面(MDI)
  • [后端进阶] 详解分布式锁的三种实现方式:MySQL vs Redis vs ZooKeeper
  • 香港科技大学团队发明“智能管家“,让AI一眼就知道该抓哪里用哪里
  • 《ZeroTier教程》02-使用docker部署自建PLANET和controller 二次开发ztncui控制面板
  • 中国储能第一股赴美IPO,但工厂也得搬过去
  • 最长公共子序列(LCS)
  • 机器视觉介绍