当前位置：首页 > news >正文

别再死记硬背SMO公式了！用Python手写一个简化版SVM优化器（附完整代码）

news 2026/7/26 4:23:13

用Python实现SMO算法：从数学推导到代码实战

在机器学习领域，支持向量机(SVM)以其优秀的分类性能而闻名。然而，许多学习者在理解其核心优化算法——序列最小优化(SMO)时，常常被复杂的数学公式和代码实现所困扰。本文将带你从零开始，用Python实现一个简化但功能完整的SMO算法，通过代码实践深入理解其工作原理。

1. SMO算法核心思想

SMO算法的核心在于将复杂的二次规划问题分解为一系列简单的子问题。传统SVM求解需要处理大量拉格朗日乘子α的优化，而SMO则采用"分而治之"的策略：每次只优化两个α，其他α保持固定。

为什么选择两个α？这与SVM的约束条件密切相关：

∑(y_i * α_i) = 0

如果只改变一个α，将破坏这个等式约束。选择两个α同时调整，可以通过以下方式保持约束：

y₁Δα₁ + y₂Δα₂ = 0

2. 简化版SMO实现步骤

2.1 数据准备与初始化

首先，我们需要加载数据集并初始化必要的参数：

import numpy as np import random def load_dataset(filename): """加载数据集""" data = [] labels = [] with open(filename) as f: for line in f: parts = line.strip().split('\t') data.append([float(parts[0]), float(parts[1])]) labels.append(float(parts[2])) return np.array(data), np.array(labels)

初始化参数包括：

C：正则化参数
toler：容错率
max_iter：最大迭代次数
alphas：拉格朗日乘子向量
b：偏置项

2.2 辅助函数实现

我们需要几个关键辅助函数：

def select_j_random(i, m): """随机选择不同于i的j""" j = i while j == i: j = random.randint(0, m-1) return j def clip_alpha(aj, H, L): """修剪alpha值到指定范围""" if aj > H: return H if aj < L: return L return aj

2.3 核心SMO算法

下面是简化版SMO的核心实现：

def smo_simple(data, labels, C, toler, max_iter): m, n = data.shape alphas = np.zeros(m) b = 0 iter = 0 while iter < max_iter: alpha_pairs_changed = 0 for i in range(m): # 计算预测值和误差 fxi = np.sum(alphas * labels * np.dot(data, data[i])) + b Ei = fxi - labels[i] # 检查是否违反KKT条件 if ((labels[i]*Ei < -toler) and (alphas[i] < C)) or \ ((labels[i]*Ei > toler) and (alphas[i] > 0)): j = select_j_random(i, m) fxj = np.sum(alphas * labels * np.dot(data, data[j])) + b Ej = fxj - labels[j] # 保存旧值 alpha_i_old = alphas[i] alpha_j_old = alphas[j] # 计算L和H边界 if labels[i] != labels[j]: L = max(0, alphas[j] - alphas[i]) H = min(C, C + alphas[j] - alphas[i]) else: L = max(0, alphas[j] + alphas[i] - C) H = min(C, alphas[j] + alphas[i]) if L == H: continue # 计算eta eta = 2 * np.dot(data[i], data[j]) - \ np.dot(data[i], data[i]) - np.dot(data[j], data[j]) if eta >= 0: continue # 更新alpha_j alphas[j] -= labels[j] * (Ei - Ej) / eta alphas[j] = clip_alpha(alphas[j], H, L) if abs(alphas[j] - alpha_j_old) < 1e-5: continue # 更新alpha_i alphas[i] += labels[i] * labels[j] * (alpha_j_old - alphas[j]) # 更新b b1 = b - Ei - labels[i]*(alphas[i]-alpha_i_old)*np.dot(data[i],data[i]) - \ labels[j]*(alphas[j]-alpha_j_old)*np.dot(data[i],data[j]) b2 = b - Ej - labels[i]*(alphas[i]-alpha_i_old)*np.dot(data[i],data[j]) - \ labels[j]*(alphas[j]-alpha_j_old)*np.dot(data[j],data[j]) if 0 < alphas[i] < C: b = b1 elif 0 < alphas[j] < C: b = b2 else: b = (b1 + b2) / 2 alpha_pairs_changed += 1 if alpha_pairs_changed == 0: iter += 1 else: iter = 0 return b, alphas

3. 关键点解析

3.1 KKT条件与优化触发

SMO算法的核心驱动力是KKT条件，它决定了哪些α需要被优化：

y_i * E_i < -toler 且 α_i < C （需要增大α_i） 或 y_i * E_i > toler 且 α_i > 0 （需要减小α_i）

其中E_i是预测误差，toler是我们设定的容错率。

3.2 α的边界计算

在优化α对时，必须确保它们满足约束条件：

当y_i ≠ y_j时：

L = max(0, α_j - α_i) H = min(C, C + α_j - α_i)

当y_i = y_j时：

L = max(0, α_i + α_j - C) H = min(C, α_i + α_j)

3.3 参数更新策略

更新α_j后，α_i的更新遵循：

α_i_new = α_i_old + y_i * y_j * (α_j_old - α_j_new)

偏置项b的更新则考虑不同情况：

如果0 < α_i_new < C，使用b1
如果0 < α_j_new < C，使用b2
否则取平均值

4. 算法优化与改进

虽然简化版SMO易于理解，但效率较低。可以考虑以下改进：

4.1 启发式选择α对

更智能的α选择策略可以显著加速收敛：

def select_j(i, errors, Ei): max_k = -1 max_delta_e = 0 Ej = 0 # 设置误差缓存 errors[i] = Ei # 寻找使|Ei-Ej|最大的j valid_indices = np.where(errors != 0)[0] if len(valid_indices) > 1: for k in valid_indices: if k == i: continue Ek = errors[k] delta_e = abs(Ei - Ek) if delta_e > max_delta_e: max_k = k max_delta_e = delta_e Ej = Ek return max_k, Ej else: j = select_j_random(i, len(errors)) Ej = errors[j] return j, Ej

4.2 误差缓存机制

维护一个误差缓存可以避免重复计算：

class Optimizer: def __init__(self, data, labels, C, toler): self.X = data self.y = labels self.C = C self.tol = toler self.m = data.shape[0] self.alphas = np.zeros(self.m) self.b = 0 self.errors = np.zeros(self.m)

5. 实际应用与可视化

实现完整的SMO算法后，我们可以将其应用于实际分类问题：

def calculate_w(alphas, data, labels): """计算权重向量w""" w = np.zeros(data.shape[1]) for i in range(len(alphas)): w += alphas[i] * labels[i] * data[i] return w def plot_decision_boundary(data, labels, alphas, b): """绘制决策边界""" import matplotlib.pyplot as plt # 绘制数据点 plt.scatter(data[:,0], data[:,1], c=labels) # 计算决策边界 w = calculate_w(alphas, data, labels) x_min, x_max = data[:,0].min()-1, data[:,0].max()+1 y_min, y_max = data[:,1].min()-1, data[:,1].max()+1 xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02)) Z = np.dot(np.c_[xx.ravel(), yy.ravel()], w) + b Z = Z.reshape(xx.shape) # 绘制决策边界和间隔 plt.contour(xx, yy, Z, levels=[-1,0,1], colors='k', linestyles=['--','-','--']) plt.show()

6. 性能评估与调优

在实际应用中，我们需要关注以下几个关键指标：

分类准确率：在测试集上的表现
支持向量数量：影响模型复杂度和泛化能力
训练时间：与算法效率直接相关

调优建议：

调整正则化参数C：控制间隔宽度与分类错误的权衡
选择合适的核函数：线性核、多项式核或高斯核
优化容错率toler：平衡精度与收敛速度

def evaluate_model(data_train, labels_train, data_test, labels_test, C, toler): """评估模型性能""" b, alphas = smo_simple(data_train, labels_train, C, toler, 100) w = calculate_w(alphas, data_train, labels_train) # 计算训练集准确率 train_pred = np.dot(data_train, w) + b train_acc = np.mean((train_pred > 0) == (labels_train > 0)) # 计算测试集准确率 test_pred = np.dot(data_test, w) + b test_acc = np.mean((test_pred > 0) == (labels_test > 0)) return train_acc, test_acc, sum(alphas > 0)