当前位置：首页 > news >正文

机器学习基本概念（学习笔记）

news 2026/7/27 17:00:09

1：什么是机器学习

在一个函数集合中，通过对每一个函数进行评价，寻找表现最好的函数。

流程：设计模型—>判断模型好坏—>选择最优函数—>优化函数：1，修改模型，增加数据维度 2，增加正则因子，使函数更加平滑，使w更小

2：什么是有监督学习

使用经过标注的数据，学习一个变量x到y的函数映射。（y=f(x)）

主要被用来解决两类问题：分类，回归。

分类：预测某一样本所属类别（输出是离散的，因为类别个数是可数的）

回归：预测某一样本对应的实数输出（输出是连续的，是一个实数）

3：什么是无监督学习

使用未经标注的数据，对数据的结构进行建模。

主要被用来解决三类问题：

关联分析：寻找不同事物同时出现的概率

聚类问题：将相似样本划分为一个簇

维度约减：在减少数据的维度的同时，确保不丢失有意义的信息（将高维数据压缩到低维空间，同时保留数据的主要结构或特征）。一般使用特征提取和特征选择方法达到这个目标。特征选择：选择原始变量的子集。特征提取：将数据从高维度转换到低维度

4：有/无监督学习之间的差异

使用数据不同：有监督学习的数据集经过专家标注，给定了输入输出；无监督学习使用的数据集未经标注，只给定输入，未给定输出。

目的不同：有监督学习的目的在于学习一个映射；无监督学习的目的在于对数据的结构进行建模

5：有监督学习相关算法及其作用与优缺点

有监督学习相关算法

1.线性回归：

使用形如：
$$
Y=kX+b
$$
的方式来刻画输入变量X与输出变量Y之间的关系。目标是拟合一条直线。预测的是一个连续的值。

优点：实现简单，复杂度低，计算量小，对线性关系拟合效果好

缺点：难以表现复杂数据关系，无法处理分类问题

2.逻辑回归：

使用sigmoid函数得到一个连续的概率p，再根据决策函数来得到一个离散的值，从而完成分类的任务

sigmoid函数：
$$
h_\theta(x) = \frac{1}{1 + e^{-\thetaT x}}
$$
决策函数：
$$
y = \begin{cases}
1, & \text{if } h_\theta(x) \geq 0.5 \
0, & \text{if } h_\theta(x) < 0.5
\end{cases}
$$
优点：适合分类问题，鲁棒性较好

缺点：计算复杂度较高，对不平衡数据敏感，

3.分类回归树(决策树)：

使用一个树形的数据结构来进行决策，将树的结点分为终端节点和非终端节点。

非终端节点为所有的非叶子结点(根节点和内部结点，终端节点为所有的叶子节点。

每一个非终端结点代表一个输入变量x和一个分叉点，每一个终端结点代表一个输出变量y。每一个分叉点代表着一次决策。

优点：解释性强，计算复杂度较低，适合分类任务

缺点：容易过拟合，基于贪心算法容易陷入局部最优，对数据偏差敏感，对于连续值的预测表现不佳

4.朴素贝叶斯：

基于贝叶斯定理，并且假设特征之间条件独立,

对于分类问题，给定特征向量
$$
\mathbf{X} = (x_1, x_2, \dots, x_n)
$$
和类别
$$
C_k
$$
，朴素贝叶斯分类器计算后验概率：

$$
P(C_k | \mathbf{X}) = \frac{P(C_k) \cdot P(\mathbf{X} | C_k)}{P(\mathbf{X})}
$$
P(Ck∣X)：后验概率，即给定特征 X时属于类别 Ck 的概率。

P(Ck)：先验概率，类别 Ck 的概率（与数据无关）。

P(X∣Ck)：可能性，给定类别 Ck 时特征 X 的概率。

P(X)：预测器先验概率，特征 X 的总概率（与假设无关）。

朴素贝叶斯假设特征
$$
\mathbf{X} = (x_1, x_2, \dots, x_n)
$$
在给定类别 Ck的条件下相互独立，因此似然概率可以分解为：
$$
P(\mathbf{X} | C_k) = P(x_1 | C_k) \cdot P(x_2 | C_k) \cdot \dots \cdot P(x_n | C_k) = \prod_{i=1}^n P(x_i | C_k)
$$
优点：实现简单，复杂度低，对小数据集有效

缺点：假设特征之间相互独立，特征值若未在数据集中出现，可能导致零概率

5.KNN(K临近)：

利用整个数据集进行训练。

需要预测一个输入的输出时，去数据集里寻找k个与给定输入最接近的数据，但后得到这k个数据的输出的均值（或者这k个数据中最多的一个类），作为需要预测的输出

优点：实现简单，仅在预测时计算，训练阶段仅存储数据

缺点：计算时要遍历所有数据复杂度较高，k值选择敏感，对不平衡数据敏感

无监督学习相关算法

6：无监督学习相关算法及其作用与优缺点

1.关联规则算法

用于挖掘出现频繁项集，即同时出现频率最高的事物的组合的集合。

支持度：规则 A → B 在数据集中出现的频率。

Support(A → B) = P(A ∩ B) = 含 A 和 B 的事务数 / 总事务数

置信度：规则 A → B 的可信度，即 A 发生时 B 也发生的概率。

Confidence(A → B) = P(B | A) = Support(A → B) / Support(A)

提升度：衡量规则的实际效果与随机情况的对比。

Lift(A → B) = Confidence(A → B) / Support(B)

Lift>1:正相关 Lift=1:无关联 Lift<1:负相关

优点：可解释性强，那有效挖掘数据之间的关联关系

缺点：计算复杂度高，规则可能冗余需人工筛选，对稀疏数据效果差

2.K-means算法

通过不断的迭代中心点的计算和簇（cluster）的分配，直到结果不再改变或小于某阈值。

算法步骤：

1.选择k值

2.随机分配数据到k个簇里

3.计算每一个簇的中心点

4.计算每一个点到中心点的距离，将其分配给距离最短的中心点

5.重新计算中心点

6.不断迭代，直到结果不再改变

优点：实现简单，结果直观

缺点：对k值敏感，对初始中心点敏感，仅适用于球形簇，假设簇大小密度均匀

3.PCA主成分分析

通过降维，去除数据中的冗余部分或实现可视化。

将数据中方差最大的部分反映在一个新的坐标系中，称这个坐标系为”主要成分“，新的成分都是原先成分的正交组合，即新的成分之间没有重合子成分，这保证了新的成分之间相互独立。

第一主成分反映了方差最大的方向，第二主成分等均反映了与之前成分无关的变量的信息。

优点：降维效果好，去噪能力强，消除了特征之间的相关性

缺点：会丢失低方差信息，对特征尺度敏感，解释性较弱

7：什么是集成学习

将不同学习模型的结果组合起来，通过投票或平均提高准确率。一般而言，对于“分类问题”使用投票，对”回归问题“使用平均。

8：集成学习相关算法及其作用与优缺点

1.随机森林算法

使用自主抽样得到与原始数据集大小相同的n个新数据集作为训练集，将原始数据集作为测试集。

在不同的训练集上，使用相同的算法同时建造多个模型（此处为多个决策树）

优点：可并行计算，可处理分类与回归问题，准确性高，泛化能力强

缺点：计算量大，调参复杂

2.boosting算法

在得到多个训练集之后，线性的进行模型的建立，并且后一个模型依赖于前一个模型的错误，对于前一个模型决策错误的数据类型，赋予更大的权重，以此放大错误，减小误差。

步骤如下：

1.从一个决策树桩开始，根据一个输入变量做出决定

2.依据不同的输入变量，构造下一个决策树桩

3.依据不同的输入变量，训练不同的决策树桩

4.将决策树桩加权（权重基于其准确性）组合起来(加权投票或加权求和)

优点：精度高，对噪声不敏感，决策树桩简单

缺点：计算复杂度高，对超参数敏感，可解释性差

9：机器学习处理流程

基本流程：

需求分析与数据获取，数据预处理，特征工程，算法模型，模型评估。

相关指标：

回归：

均方误差(MSE)

预测值与真实值差的平方的平均值
$$
MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$
该指标越小越好，最优值为0，表示预测值完全等于真实值

均方根误差(RMSE)

MSE的平方根
$$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}
$$
该指标越小越好，最优值为0

平均绝对误差(MAE)

预测值与真实值差的绝对值的平均值
$$
MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
$$
该指标越小越好，最优值为0

决定系数(R^2)

衡量模型解释数据变异的比例
$$
R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^{2}{\sum_{i=1}}n (y_i - \bar{y})^2}
$$
越大越好，越大表示数据拟合的越好，最优值为1

总结

任务	指标	趋势	最优值	适用场景
回归	MSE	越小越好	0	关注大误差场景
	RMSE	越小越好	0	需要直观误差量纲
	MAE	越小越好	0	对异常值不敏感
	R²	越大越好	1	衡量拟合效果
	Adjusted R²	越大越好	1	多特征模型比较
分类	Accuracy	越大越好	1	类别平衡数据集
	Precision	越大越好	1	假阳性代价高
	Recall	越大越好	1	假阴性代价高
	F1 Score	越大越好	1	不平衡数据集
	ROC-AUC	越大越好	1	二分类整体性能
	Log Loss	越小越好	0	概率输出模型