当前位置: 首页 > news >正文

机器学习基本概念(学习笔记)

1:什么是机器学习

在一个函数集合中,通过对每一个函数进行评价,寻找表现最好的函数。

流程:设计模型—>判断模型好坏—>选择最优函数—>优化函数:1,修改模型,增加数据维度 2,增加正则因子,使函数更加平滑,使w更小

2:什么是有监督学习

使用经过标注的数据,学习一个变量x到y的函数映射。(y=f(x))

主要被用来解决两类问题:分类,回归。

分类:预测某一样本所属类别(输出是离散的,因为类别个数是可数的)

回归:预测某一样本对应的实数输出(输出是连续的,是一个实数)

3:什么是无监督学习

使用未经标注的数据,对数据的结构进行建模。

主要被用来解决三类问题:

关联分析:寻找不同事物同时出现的概率

聚类问题:将相似样本划分为一个簇

维度约减:在减少数据的维度的同时,确保不丢失有意义的信息(将高维数据压缩到低维空间,同时保留数据的主要结构或特征)。一般使用特征提取和特征选择方法达到这个目标。特征选择:选择原始变量的子集。特征提取:将数据从高维度转换到低维度

4:有/无监督学习之间的差异

使用数据不同:有监督学习的数据集经过专家标注,给定了输入输出;无监督学习使用的数据集未经标注,只给定输入,未给定输出。

目的不同:有监督学习的目的在于学习一个映射;无监督学习的目的在于对数据的结构进行建模

5:有监督学习相关算法及其作用与优缺点

有监督学习相关算法

1.线性回归:

​ 使用形如:
$$
Y=kX+b
$$
的方式来刻画输入变量X与输出变量Y之间的关系。目标是拟合一条直线。预测的是一个连续的值。

​ 优点:实现简单,复杂度低,计算量小,对线性关系拟合效果好

​ 缺点:难以表现复杂数据关系,无法处理分类问题

2.逻辑回归:

使用sigmoid函数得到一个连续的概率p,再根据决策函数来得到一个离散的值,从而完成分类的任务

sigmoid函数:
$$
h_\theta(x) = \frac{1}{1 + e{-\thetaT x}}
$$
决策函数:
$$
y = \begin{cases}
1, & \text{if } h_\theta(x) \geq 0.5 \
0, & \text{if } h_\theta(x) < 0.5
\end{cases}
$$
优点:适合分类问题,鲁棒性较好

缺点:计算复杂度较高,对不平衡数据敏感,

3.分类回归树(决策树):

使用一个树形的数据结构来进行决策,将树的结点分为终端节点和非终端节点。

非终端节点为所有的非叶子结点(根节点和内部结点,终端节点为所有的叶子节点。

每一个非终端结点代表一个输入变量x和一个分叉点,每一个终端结点代表一个输出变量y。每一个分叉点代表着一次决策。

在这里插入图片描述

优点:解释性强,计算复杂度较低,适合分类任务

缺点:容易过拟合,基于贪心算法容易陷入局部最优,对数据偏差敏感,对于连续值的预测表现不佳

4.朴素贝叶斯:

基于贝叶斯定理,并且假设特征之间条件独立,

对于分类问题,给定特征向量
$$
\mathbf{X} = (x_1, x_2, \dots, x_n)
$$
和类别
$$
C_k
$$
,朴素贝叶斯分类器计算后验概率:

$$
P(C_k | \mathbf{X}) = \frac{P(C_k) \cdot P(\mathbf{X} | C_k)}{P(\mathbf{X})}
$$
P(Ck∣X):后验概率,即给定特征 X时属于类别 Ck 的概率。

P(Ck):先验概率,类别 Ck 的概率(与数据无关)。

P(X∣Ck):可能性,给定类别 Ck 时特征 X 的概率。

P(X):预测器先验概率,特征 X 的总概率(与假设无关)。

朴素贝叶斯假设特征
$$
\mathbf{X} = (x_1, x_2, \dots, x_n)
$$
在给定类别 Ck的条件下相互独立,因此似然概率可以分解为:
$$
P(\mathbf{X} | C_k) = P(x_1 | C_k) \cdot P(x_2 | C_k) \cdot \dots \cdot P(x_n | C_k) = \prod_{i=1}^n P(x_i | C_k)
$$
优点:实现简单,复杂度低,对小数据集有效

缺点:假设特征之间相互独立,特征值若未在数据集中出现,可能导致零概率

5.KNN(K临近):

利用整个数据集进行训练。

需要预测一个输入的输出时,去数据集里寻找k个与给定输入最接近的数据,但后得到这k个数据的输出的均值(或者这k个数据中最多的一个类),作为需要预测的输出

优点:实现简单,仅在预测时计算,训练阶段仅存储数据

缺点:计算时要遍历所有数据复杂度较高,k值选择敏感,对不平衡数据敏感

无监督学习相关算法

6:无监督学习相关算法及其作用与优缺点

1.关联规则算法

用于挖掘出现频繁项集,即同时出现频率最高的事物的组合的集合。

支持度:规则 A → B 在数据集中出现的频率。

Support(A → B) = P(A ∩ B) = 含 A 和 B 的事务数 / 总事务数

置信度:规则 A → B 的可信度,即 A 发生时 B 也发生的概率。

Confidence(A → B) = P(B | A) = Support(A → B) / Support(A)

提升度:衡量规则的实际效果与随机情况的对比。

Lift(A → B) = Confidence(A → B) / Support(B)

Lift>1:正相关 Lift=1:无关联 Lift<1:负相关

优点:可解释性强,那有效挖掘数据之间的关联关系

缺点:计算复杂度高,规则可能冗余需人工筛选,对稀疏数据效果差

2.K-means算法

通过不断的迭代中心点的计算和簇(cluster)的分配,直到结果不再改变或小于某阈值。

图 6 k-means算法的步骤

算法步骤:

​ 1.选择k值

​ 2.随机分配数据到k个簇里

​ 3.计算每一个簇的中心点

​ 4.计算每一个点到中心点的距离,将其分配给距离最短的中心点

​ 5.重新计算中心点

​ 6.不断迭代,直到结果不再改变

优点:实现简单,结果直观

缺点:对k值敏感,对初始中心点敏感,仅适用于球形簇,假设簇大小密度均匀

3.PCA主成分分析

通过降维,去除数据中的冗余部分或实现可视化。

将数据中方差最大的部分反映在一个新的坐标系中,称这个坐标系为”主要成分“,新的成分都是原先成分的正交组合,即新的成分之间没有重合子成分,这保证了新的成分之间相互独立。

第一主成分反映了方差最大的方向,第二主成分等均反映了与之前成分无关的变量的信息。

优点:降维效果好,去噪能力强,消除了特征之间的相关性

缺点:会丢失低方差信息,对特征尺度敏感,解释性较弱

7:什么是集成学习

将不同学习模型的结果组合起来,通过投票或平均提高准确率。一般而言,对于“分类问题”使用投票,对”回归问题“使用平均。

8:集成学习相关算法及其作用与优缺点

1.随机森林算法

使用自主抽样得到与原始数据集大小相同的n个新数据集作为训练集,将原始数据集作为测试集。

在不同的训练集上,使用相同的算法同时建造多个模型(此处为多个决策树)

优点:可并行计算,可处理分类与回归问题,准确性高,泛化能力强

缺点:计算量大,调参复杂

2.boosting算法

在得到多个训练集之后,线性的进行模型的建立,并且后一个模型依赖于前一个模型的错误,对于前一个模型决策错误的数据类型,赋予更大的权重,以此放大错误,减小误差。

步骤如下:

​ 1.从一个决策树桩开始,根据一个输入变量做出决定

​ 2.依据不同的输入变量,构造下一个决策树桩

​ 3.依据不同的输入变量,训练不同的决策树桩

​ 4.将决策树桩加权(权重基于其准确性)组合起来(加权投票或加权求和)

优点:精度高,对噪声不敏感,决策树桩简单

缺点:计算复杂度高,对超参数敏感,可解释性差

9:机器学习处理流程

基本流程:

需求分析与数据获取,数据预处理,特征工程,算法模型,模型评估。

相关指标:

回归:

均方误差(MSE)

预测值与真实值差的平方的平均值
$$
MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$
该指标越小越好,最优值为0,表示预测值完全等于真实值

均方根误差(RMSE)

MSE的平方根
$$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}
$$
该指标越小越好,最优值为0

平均绝对误差(MAE)

预测值与真实值差的绝对值的平均值
$$
MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
$$
该指标越小越好,最优值为0

决定系数(R^2)

衡量模型解释数据变异的比例
$$
R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)2}{\sum_{i=1}n (y_i - \bar{y})^2}
$$
越大越好,越大表示数据拟合的越好,最优值为1

分类

准确率(Accuracy)

正确预测的样本占总样本的比例。
$$
\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}
$$
其中,TP(真阳性)、TN(真阴性)、FP(假阳性)、FN(假阴性)来自混淆矩阵。

趋势越大越好,最优值为1(100%正确预测)。

精确率(Precision)

预测为正类的样本中,真正为正类的比例
$$
\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}
$$
趋势越大越好,最优值为1(无假阳性)

召回率(Recall)

真实正类中被正确预测的比例
$$
\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}
$$
趋势越大越好,最优值为1

F1分数(F1 score)

精确率和召回率的调和平均数
$$
\text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$$
趋势越大越好,最优值为1(精确率和召回率均为1)

ROC-AUC曲线

ROC曲线(横轴为假阳性率FPR,纵轴为真阳性率TPR)下的面积
$$
\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}, \quad \text{TPR} = \text{Recall}
$$
趋势越大越好,最优值为1(完美区分正负类),0.5表示随机猜测

Log Loss

衡量预测概率与真实标签之间的差异
$$
\text{Log Loss} = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log(\hat{p}_i) + (1 - y_i) \log(1 - \hat{p}_i) \right]
$$
趋势越小越好,最优值为0(预测概率完全正确)

总结

任务 指标 趋势 最优值 适用场景
回归 MSE 越小越好 0 关注大误差场景
RMSE 越小越好 0 需要直观误差量纲
MAE 越小越好 0 对异常值不敏感
越大越好 1 衡量拟合效果
Adjusted R² 越大越好 1 多特征模型比较
分类 Accuracy 越大越好 1 类别平衡数据集
Precision 越大越好 1 假阳性代价高
Recall 越大越好 1 假阴性代价高
F1 Score 越大越好 1 不平衡数据集
ROC-AUC 越大越好 1 二分类整体性能
Log Loss 越小越好 0 概率输出模型
http://www.jsqmd.com/news/835908/

相关文章:

  • 安顺制造业工厂如何做线上全网获客?2026年GEO优化与AI搜索推广指南 - 精选优质企业推荐官
  • 贵州茅台镇白酒销售公司如何做线上全网获客?2026年推广指南与服务商盘点 - 精选优质企业推荐官
  • 深度学习基本概念(学习笔记)
  • C语言malloc函数详细解说与工程实现(附带malloc、realloc、calloc、free完整源码)
  • 2026年南充条幅锦旗,楼顶发光字,户外广告牌厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 黔南制造业工厂如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 2026年南充灯光舞台,演艺主持,泡沫板厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 【亲测门店】绍兴新昌、嵊州随车吊租赁,哪家性价比更高?并附带联系方式 - 花开富贵112
  • 冷库仓储物流配送如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 南昌航空大学2025级学生面向对象程序设计作业集1-3总结
  • 二手车收售评估如何做线上推广?2026全网获客指南与服务商选择 - 精选优质企业推荐官
  • 瓷砖卫浴建材销售如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 2026年南充喷绘写真,平板UV喷印,亚克力字厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 2026年南充水晶字,穿孔字,烤漆字厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • Agent = Model + Harness:模型决定上限Harness 决定下限
  • Docker 容器宿主机被入侵如何排查容器逃逸漏洞与配置加固?
  • 2026年4月国内口碑好的ISO9001认证代办公司推荐,ISO45001认证,ISO9001认证公司怎么选择 - 品牌推荐师
  • 园林绿植养护工程如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 2026年南充花草牌,小区园林标识,亚克力雕刻厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 贵阳中职学校如何做线上全网获客?2026招生推广指南与服务商盘点 - 精选优质企业推荐官
  • GitNexus 完整上手攻略
  • 贵州企业团建活动策划如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 2026年南充门头招牌,发光字,软膜灯箱厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 2026年南充标识牌,公示栏,精神堡垒厂家推荐:本地定制哪家强? - 四川华蔓广告有限公司
  • 汽车美容洗护改装如何做网络推广?2026全网获客指南与服务商选型盘点 - 精选优质企业推荐官
  • 大致了解不同种类目标检测算法
  • 昆明罗丹艺术培训学校师资水平详细解析:核心资质配置与教学管理服务标准一览 - 云南美术头条
  • 室内装修设计施工如何做线上推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官
  • 2026年5月南充区域广告设计制作(LED显示屏、显示屏租赁,显示屏搭建)安装价格 - 四川华蔓广告有限公司
  • 冷库仓储物流配送如何做网络推广?2026全网获客指南与服务商盘点 - 精选优质企业推荐官