当前位置：首页 > news >正文

SVM：小样本高维数据的分类利器

news 2026/7/7 19:05:06

支持向量机（Support Vector Machine, SVM）是一种经典的监督学习算法，核心用于解决分类（尤其是二分类）和回归（SVR，支持向量回归）问题。它的设计理念独特，以“最大化间隔”为核心，在数学上具有良好的理论保证，且在小样本、高维数据场景下表现优异，是机器学习领域的里程碑式算法。

一、核心思想：最大化分类间隔

SVM的本质是寻找一个最优超平面，将不同类别的样本分开，且该超平面到两类样本的最近距离（间隔，Margin）最大。

超平面：在n维空间中，超平面是一个n-1维的子空间，用于划分数据。例如：
- 二维空间中，超平面是一条直线（w1x1+w2x2+b=0）；
- 三维空间中，超平面是一个平面（w1x1+w2x2+w3x3+b=0）；
- n维空间中，超平面方程为 wTx+b=0（w是法向量，决定超平面方向；b是截距，决定超平面位置）。
间隔与支持向量：
样本点到超平面的距离为 ∣∣w∣∣∣wTx+b∣（∣∣w∣∣是 w的L2范数）。对于二分类（标签 yi∈{+1,−1}），若样本被正确分类，则 yi(wTxi+b)>0。
支持向量是离超平面最近的样本点（即满足 yi(wTxi+b)=1的点），它们决定了超平面的位置和间隔大小。
最大间隔：间隔定义为支持向量到超平面距离的2倍（即 ∣∣w∣∣2），SVM的目标是最大化该间隔（等价于最小化 21∣∣w∣∣2，便于数学求解）。

二、硬间隔与软间隔：处理线性不可分

理想情况下，数据是线性可分的（存在超平面完美分开两类样本），此时对应硬间隔SVM。但实际数据常存在噪声或重叠，无法直接线性可分，因此需要软间隔SVM。

1. 硬间隔SVM（线性可分场景）

目标函数：在约束条件 yi(wTxi+b)≥1（所有样本被正确分类且距离超平面至少为 ∣∣w∣∣1）下，最小化 21∣∣w∣∣2。

通过拉格朗日乘数法求解，最终得到的超平面仅由支持向量决定（非支持向量不影响超平面位置）。

2. 软间隔SVM（线性不可分场景）

为解决线性不可分问题，允许部分样本被错误分类或落在间隔内，引入松弛变量 ξi≥0（ξi表示样本 xi违反间隔的程度）。

目标函数调整为：最小化 21∣∣w∣∣2+C∑i=1mξi，其中：

C是惩罚系数（正则化参数）：平衡“最大化间隔”和“最小化错误”。C越大，对错误的惩罚越重，模型越倾向于严格分类（易过拟合）；C越小，允许更多错误，模型更宽松（易欠拟合）。
约束条件：yi(wTxi+b)≥1−ξi（错误样本的 ξi>0，正确样本的 ξi=0）。

三、核技巧：处理非线性可分

当数据非线性可分（如螺旋分布、异或问题）时，线性超平面无法有效划分。SVM通过核技巧（Kernel Trick）将低维非线性问题转化为高维线性问题，无需显式升维（避免“维数灾难”）。

1. 核函数的本质

核函数 K(xi,xj)=ϕ(xi)Tϕ(xj)，其中 ϕ(⋅)是将低维特征映射到高维的非线性函数。SVM的决策函数原本为 f(x)=sign(wTϕ(x)+b)，通过核函数可简化为 f(x)=sign(∑i=1mαiyiK(xi,x)+b)（αi是拉格朗日乘子，仅支持向量的 αi>0）。

2. 常用核函数

核函数类型	公式	特点与应用场景
线性核（Linear）	K(xi,xj)=xiTxj	无升维，适用于线性可分数据（默认核函数，计算快）。
多项式核（Polynomial）	K(xi,xj)=(γxiTxj+r)d	升维为高次多项式空间，适用于中度非线性数据；需调参 γ（核宽度）、d（次数）、r（常数项）。
径向基核（RBF，高斯核）	$K(x_i, x_j) = \exp(-\gamma
Sigmoid核	K(xi,xj)=tanh(γxiTxj+r)	模拟神经网络激活函数，适用于特定非线性场景，但理论性质不如RBF明确。

四、SVM的求解：序列最小优化（SMO）

SVM的目标函数和约束条件是非线性的，直接求解困难。序列最小优化（Sequential Minimal Optimization, SMO）是高效求解SVM的算法：

核心思想：每次选择两个变量（如 αi和 αj），固定其他变量，将问题转化为单变量二次规划问题求解，逐步逼近最优解；
优势：避免了大规模矩阵运算，计算效率高，是SVM实用化的关键。

五、SVM的扩展：多分类与回归

SVM原生是二分类算法，需扩展处理多分类和回归任务：

1. 多分类SVM

常用两种策略：

一对多（One-vs-Rest, OvR）：对每个类别，训练一个二分类器（该类为正样本，其余为负样本），共 k个分类器（k为类别数）；预测时选择置信度最高的分类器结果。
一对一（One-vs-One, OvO）：对每对类别训练一个二分类器，共 2k(k−1)个分类器；预测时通过投票选择多数类别。