当前位置: 首页 > news >正文

ML预测半导体良品率——样本缺失值模式分析(Python+Pandas+Matplotlib)

学习过程中的有疑问:plt.什么意思?EDA什么意思


一、plt是什么意思?

很多初学者看到:

plt.show() plt.plot() plt.savefig() plt.subplots()

都会问:

为什么都是 plt?

其实:

plt

不是 Python 关键字,也不是固定语法。

它只是一个变量名(别名,alias)


它来自哪里?

一般在代码最前面都会有:

import matplotlib.pyplot as plt

把它拆开来看:

import

表示:

导入一个库。


matplotlib

表示:

Python 最经典的画图库。


pyplot

表示:

matplotlib 里面专门负责画图的模块(module)。

可以理解成:

matplotlib(一本书) ├── pyplot(画图) ├── animation(动画) ├── colors(颜色) ├── patches(图形) ...

最后:

as plt

表示:

matplotlib.pyplot起一个更短的名字。

就像:

你的名字:

张三

别人平时叫:

小张

所以:

import matplotlib.pyplot as plt

实际上就是:

以后别叫 matplotlib.pyplot 这么长了, 直接叫 plt 就行。

举个例子

原本应该写:

matplotlib.pyplot.show()

太长。

于是:

import matplotlib.pyplot as plt

以后就可以写:

plt.show()

简单很多。


所以:

plt.show()

真正完整写法其实是:

matplotlib.pyplot.show()

plt.后面的点(.)是什么意思?

很多初学者都会问:

plt.show()

为什么有个:

.

这个点叫:

成员访问符(dot operator)

意思是:

调用这个对象里面的东西。

例如:

plt.show()

意思就是:

调用 pyplot 模块里的 show() 函数。

同样:

plt.savefig()

就是:

调用 pyplot 模块里的 savefig() 函数。

所以:

plt 就像一个工具箱。 show() savefig() plot() hist() 都是工具箱里的工具。

为什么叫 pyplot?

因为它最早就是模仿 MATLAB 的画图方式。

所以:

plt.plot()

非常像 MATLAB。


常见的 plt 函数

代码作用
plt.plot()折线图
plt.scatter()散点图
plt.hist()直方图
plt.bar()柱状图
plt.boxplot()箱线图
plt.subplots()创建画布
plt.show()显示图片
plt.savefig()保存图片
plt.tight_layout()自动调整布局

二、EDA 是什么意思?

EDA 是:

Exploratory Data Analysis

中文:

探索性数据分析


为什么叫探索?

因为:

刚拿到数据的时候,

你什么都不知道。

例如:

半导体数据:

590个传感器 1567片晶圆

你不知道:

哪些传感器坏了? 哪些数据缺失? 哪些特征最重要? 数据是不是平衡? 有没有异常值? 是不是重复数据?

所以:

第一步不是训练模型。

而是:

探索(Explore)数据。

这就是:

EDA。


为什么要做 EDA?

举个例子。

假设老板给你:

100万条数据

你直接:

RandomForest.fit()

可能:

准确率:

99%

结果:

后来发现:

90%的数据都是空值。

模型:

根本不可信。

所以:

EDA 就像:

医生看病:

先检查 ↓ 再开药

而不是:

直接吃药。

EDA 一般做什么?

通常包括下面几项。


① 数据长什么样?

例如:

features.shape

输出:

1567 × 590

说明:

1567个样本 590个特征

② 缺失值分析

例如:

features.isna().sum()

看:

哪些传感器缺失最多?

③ 类别比例

例如:

labels.value_counts()

看:

Pass 1463 Fail 104

是不是:

类别不平衡。


④ 特征分布

例如:

hist() boxplot()

看:

数据是不是: 正态? 偏态?

⑤ 异常值

例如:

100 101 99 100 10000

最后:

10000

就是:

异常值。


⑥ 特征之间关系

例如:

相关性:

Feature A Feature B 0.99

说明:

高度相关。

可能:

后面:

做:

PCA SelectKBest

⑦ 数据质量

例如:

重复数据:

有没有? 空数据? 重复样本?

EDA 的最终目的

很多人以为:

EDA:

就是:

画图。

其实:

不是。

真正目的只有一句话:

了解数据,发现问题,为后续的数据清洗、特征工程和模型训练提供依据。


在你的 SECOM 项目里

EDA 就是:

读取数据 ↓ 统计样本数量 ↓ 统计Pass/Fail比例 ↓ 统计缺失值 ↓ 画缺失值图 ↓ 画类别分布 ↓ 分析异常值 ↓ 分析相关性 ↓ 决定下一步怎么清洗数据

所以:

你现在做的:

01_data_exploration.ipynb

就是:

整个项目的:

EDA(探索性数据分析)阶段。


最后送你一个 AI 项目通用流程(以后所有 GitHub 项目几乎都遵循)

数据集 │ ▼ EDA(探索数据) │ ├── 数据规模 ├── 缺失值 ├── 类别比例 ├── 特征分布 ├── 异常值 └── 相关性 │ ▼ 数据清洗(Cleaning) │ ▼ 特征工程(Feature Engineering) │ ▼ 模型训练(Model Training) │ ▼ 模型评估(Evaluation) │ ▼ 模型解释(SHAP / LIME) │ ▼ 部署(Deployment)

你现在正处在第一步EDA。这一步看似没有训练模型,但它决定了后面所有步骤是否建立在可靠的数据基础上。在工业场景(半导体、材料、新能源)中,很多项目花在 EDA 和数据清洗上的时间往往比训练模型还要多。

http://www.jsqmd.com/news/1132320/

相关文章:

  • Docker中文件修改的三种方法
  • 低代码平台与AI融合:从代码生成到智能开发的技术架构演进
  • 【硬件+APP+云平台】44.1.无线密码锁(PCB版)-基于STM32嵌入式物联网单片机软硬件毕业生系统设计
  • claude常用的cli
  • 想了解实力强的陕西GEO优化流程收费情况?这里有答案!
  • 我对NHibernate的感受(3):有些尴尬的集合支持
  • 三十多个 AI Agent,谁已经凉了
  • 立创EDA 原理图转PCB实战:3步完成转换并解决5类封装错误
  • WebPShop技术方案:Photoshop插件如何填补WebP动画与专业编码的市场空白
  • 曲面曲面解析求交方案-平面+曲面
  • AI Agent系统级测试:状态、链路与运行时质量保障
  • 征程 6 | 工具链 QAT ObserverBase 源码解析
  • 多相机画面割裂根治方案:MatrixFusion融合引擎核心原理详解
  • RevokeMsgPatcher:微信QQ防撤回补丁实用指南
  • 企业级低代码平台技术架构解析:从零代码搭建到异构系统深度集成
  • SST、SSR、SSE三要素:线性回归模型的误差解码指南
  • 【助睿实验指导】实验7-1:自媒体运营分析-数据清洗与预处理
  • YOLOv10模型改进-Neck改进-第68篇:YOLOv10改进策略【Neck】| CSPPAN改进
  • Three.js 音乐可视化教程
  • 恶劣天气数据集 极端天气数据集 雨天道路数据集 雾天道路数据集 雪天马路恶劣环境图像目标检测数据集-道路障碍物识别数据集-数据集第10119期
  • OpenClaw vs Claude Code
  • LINQ to SQL、NHibernate比较(一)-- LINQ和NHibernate初体验
  • 【242期】QtScrcpy手机投屏控制的天花板,支持多设备群控!
  • Video2X:用AI魔法让模糊视频重获新生
  • 什么是相机标定
  • 多相机画面割裂根治方案:MatrixFusion™融合引擎核心原理详解
  • 毕业生必备7款AI写作辅助网站,一站式搞定选题初稿与降AI率
  • How-To: Using the N* stack, part 1
  • 秒杀系统设计核心要点
  • AI Agent框架:从模型驱动到任务执行的关键工程化实践