当前位置：首页 > news >正文

机器学习回归模型优化：从线性回归到逻辑回归的实践

news 2026/7/13 9:07:31

1. 回归模型优化算法基础解析

在机器学习领域，回归模型是最基础且广泛应用的预测工具之一。传统上，我们使用最小二乘法等标准优化方法来训练这些模型，但今天我要分享的是如何突破常规，使用其他优化算法手动拟合回归模型。这种方法不仅能加深我们对模型工作原理的理解，还能在特殊数据情况下提供更好的解决方案。

线性回归和逻辑回归虽然结构简单，但其核心都是通过优化算法找到最佳系数。线性回归用于预测连续数值，而逻辑回归则用于分类问题。两种模型都通过加权输入来计算输出，区别在于逻辑回归额外使用了sigmoid函数将输出转换为概率。

理解优化算法在回归模型训练中的核心作用，是掌握机器学习的关键一步。当标准方法不适用时，手动优化能力就显得尤为重要。

2. 线性回归模型的手动优化实现

2.1 数据准备与模型构建

我们先从一个合成回归数据集开始，使用sklearn的make_regression函数生成包含1000个样本和10个特征的数据集：

from sklearn.datasets import make_regression X, y = make_regression(n_samples=1000, n_features=10, n_informative=2, noise=0.2, random_state=1) print(X.shape, y.shape) # 输出：(1000, 10) (1000,)

线性回归模型的核心是计算输入的加权和。我们实现一个简单的预测函数：

def predict_row(row, coefficients): result = coefficients[-1] # 偏置项 for i in range(len(row)): result += coefficients[i] * row[i] return result def predict_dataset(X, coefficients): return [predict_row(row, coefficients) for row in X]

2.2 随机初始系数评估

使用随机初始化的系数评估模型性能：

from numpy.random import rand from sklearn.metrics import mean_squared_error n_coeff = X.shape[1] + 1 coefficients = rand(n_coeff) yhat = predict_dataset(X, coefficients) print('MSE:', mean_squared_error(y, yhat)) # 初始MSE通常在数千量级

2.3 随机爬山算法实现

我们采用随机爬山算法来优化系数。这是一种局部搜索算法，通过不断在当前位置附近随机探索来寻找更优解：

from numpy.random import randn def objective(X, y, coefficients): yhat = predict_dataset(X, coefficients) return mean_squared_error(y, yhat) def hillclimbing(X, y, objective, solution, n_iter, step_size): solution_eval = objective(X, y, solution) for i in range(n_iter): candidate = solution + randn(len(solution)) * step_size candidte_eval = objective(X, y, candidate) if candidte_eval <= solution_eval: # 寻找更小MSE solution, solution_eval = candidate, candidte_eval print(f'>迭代{i} MSE:{solution_eval:.5f}') return solution, solution_eval

2.4 模型训练与评估

将数据分为训练集和测试集后，进行优化：

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33) n_iter, step_size = 2000, 0.15 initial_coefficients = rand(X.shape[1] + 1) best_coeff, best_score = hillclimbing(X_train, y_train, objective, initial_coefficients, n_iter, step_size) # 测试集评估 test_score = mean_squared_error(y_test, predict_dataset(X_test, best_coeff)) print(f'训练MSE: {best_score:.5f}, 测试MSE: {test_score:.5f}')

典型输出显示MSE从初始的数千降至约0.08，表明优化成功。训练和测试误差接近说明模型没有过拟合。

3. 逻辑回归模型的优化实现

3.1 二分类数据准备

使用make_classification创建二分类数据集：

from sklearn.datasets import make_classification X, y = make_classification(n_samples=1000, n_features=5, n_informative=2, n_redundant=1, random_state=1)

3.2 逻辑回归模型调整

在预测函数中加入sigmoid转换：

from math import exp def predict_row(row, coefficients): result = coefficients[-1] for i in range(len(row)): result += coefficients[i] * row[i] return 1.0 / (1.0 + exp(-result)) # sigmoid函数

3.3 优化目标函数修改

将评估指标改为分类准确率：

from sklearn.metrics import accuracy_score def objective(X, y, coefficients): yhat = [round(p) for p in predict_dataset(X, coefficients)] return accuracy_score(y, yhat)

3.4 爬山算法调整

修改算法以最大化准确率：

def hillclimbing(X, y, objective, solution, n_iter, step_size): solution_eval = objective(X, y, solution) for i in range(n_iter): candidate = solution + randn(len(solution)) * step_size candidte_eval = objective(X, y, candidate) if candidte_eval >= solution_eval: # 寻找更高准确率 solution, solution_eval = candidate, candidte_eval print(f'>迭代{i} 准确率:{solution_eval:.5f}') return solution, solution_eval

3.5 完整训练流程

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33) initial_coefficients = rand(X.shape[1] + 1) best_coeff, best_score = hillclimbing(X_train, y_train, objective, initial_coefficients, n_iter, step_size) test_score = accuracy_score(y_test, [round(p) for p in predict_dataset(X_test, best_coeff)]) print(f'训练准确率: {best_score:.5f}, 测试准确率: {test_score:.5f}')

4. 优化实践中的关键考量

4.1 算法参数选择

步长(step_size)：控制每次探索的范围。太大容易错过最优解，太小则收敛慢。建议从0.1开始尝试
迭代次数(n_iter)：需平衡计算成本和求解质量。可通过观察目标值变化曲线确定合适值
初始解：随机初始化可能导致不同结果。可多次运行取最佳解

4.2 算法变体与改进

随机重启：当陷入局部最优时，随机重启搜索过程
自适应步长：随迭代逐渐减小步长，实现精细搜索
动量项：保留部分上一步方向，减少震荡

4.3 其他优化算法对比

虽然本文使用随机爬山算法，但其他优化算法也值得尝试：

模拟退火：允许偶尔接受较差解，有助于跳出局部最优
遗传算法：通过种群进化寻找全局最优
粒子群优化：模拟群体智能行为

4.4 实际应用建议

对于小型数据集和简单模型，随机爬山算法简单有效
当特征维度高时，考虑使用更复杂的优化算法
记录每次迭代的目标值，绘制收敛曲线评估算法表现
比较不同随机种子下的结果稳定性

5. 常见问题与解决方案

5.1 收敛速度慢

可能原因：

步长设置过小
目标函数过于平坦
存在大量局部最优解

解决方案：

尝试增大步长
添加动量项
改用全局优化算法

5.2 过拟合问题

症状：

训练误差持续下降但测试误差开始上升

解决方法：

提前停止(early stopping)
增加正则化项
扩大训练数据集

5.3 数值不稳定

特别是在逻辑回归中，sigmoid函数可能导致数值溢出：

改进方案：

def predict_row(row, coefficients): result = coefficients[-1] for i in range(len(row)): result += coefficients[i] * row[i] # 数值稳定的sigmoid实现 if result < -100: return 0.0 elif result > 100: return 1.0 return 1.0 / (1.0 + exp(-result))