当前位置：首页 > news >正文

为何说逻辑回归是分类任务的“最佳基石”？

news 2026/6/16 15:47:15

提到“回归”，你可能先想到房价预测。但有一个名字里带“回归”、实际却用来做分类的算法，在机器学习界地位极高——逻辑回归（Logistic Regression）。

医学诊断、金融风控、垃圾邮件识别……到处都有它的身影。
原因很简单：简单、高效、能输出概率、可解释性强。

本文带你从零开始，彻底搞懂逻辑回归，并用两个真实案例（心脏病预测 + 手写数字识别）亲手跑通代码。

1. 名字是个误会：从“回归”到“分类”

逻辑回归本质上还是从线性回归“变”过来的。

线性回归的局限

输出范围：整个实数轴（-∞ 到 +∞）
分类任务需要的是概率（0 到 1）

解决方案：Sigmoid 函数（也叫 Logistic 函数）

公式很简单：

f(x)=11+e−xf(x)=1+e−x1

特性：

输出恒在 (0, 1) 之间
输入为 0 时，输出恰好 0.5
形状像 S 形曲线

把线性回归的结果扔进 Sigmoid，就得到了一个概率值。

逻辑回归的完整公式

P(y=1∣x)=11+e−(β0+β1x1+⋯+βnxn)P(y=1∣x)=1+e−(β0+β1x1+⋯+βnxn)1

决策规则：

概率 > 0.5 → 预测为类别 1
概率 ≤ 0.5 → 预测为类别 0

注意：0.5 这个阈值可以按业务需求调整。
比如疾病筛查宁可误报，可降低阈值；质量检测则可能调高阈值。

2. 如何训练模型？最大似然估计

模型的核心是找到一组参数 $\beta$，让训练数据出现的概率最大。

单个样本的概率表达

P(y∣x;β)=y^y⋅(1−y^)1−yP(y∣x;β)=y^y⋅(1−y^)1−y

若 $y=1$，值为 $\hat{y}$
若 $y=0$，值为 $1-\hat{y}$

所有样本的似然函数

L(β)=∏i=1ny^iyi(1−y^i)1−yiL(β)=∏i=1ny^iyi(1−y^i)1−yi

取对数（连乘变连加）：

log⁡L(β)=∑i=1n[yilog⁡y^i+(1−yi)log⁡(1−y^i)]logL(β)=∑i=1n[yilogy^i+(1−yi)log(1−y^i)]

损失函数（二元交叉熵）

Loss=−1nlog⁡L(β)Loss=−n1logL(β)

最大化似然 ⇔ 最小化交叉熵损失。

重要性质：
逻辑回归的损失函数是凸函数→ 有唯一的全局最优解，不会陷入局部最小值。

但注意：
没有闭式解（不像线性回归一步算出），必须用梯度下降或牛顿法迭代求解。

3. 梯度下降与正则化

损失函数的梯度（最终简化形式）

∇Loss=−1nXT(p−y)∇Loss=−n1XT(p−y)

其中 $p$ 是预测概率，$y$ 是真实标签。

梯度大小 = 预测与真实之间的误差。
误差越大，参数更新越快。

常用优化求解器（solver）

solver	特点
`lbfgs`	拟牛顿法，默认选项，支持 L2 正则化
`liblinear`	适合小数据集，支持 L1 / L2
`saga`	适合大数据，支持 L1、L2、ElasticNet

注意：penalty和solver必须兼容，否则报错。

正则化：防止过拟合

在损失函数中加入参数惩罚项，让模型参数尽量小。

类型	效果	适用场景
L1 正则化	部分系数变为 0 → 自动特征选择	特征很多，想筛选重要特征
L2 正则化	系数整体缩小，但不为 0	大多数情况的默认选择
ElasticNet	结合 L1 和 L2	需要同时控制稀疏性和整体收缩

关键参数是 C：C 越小，正则化越强。
例如C=0.01比C=1.0正则化力度大得多。

4. 实战一：心脏病预测（二分类）

数据集来自 Kaggle，包含 14 个临床特征，标签为“是否患有心脏病”。

4.1 加载数据 & 划分训练集

数据集下载：https://pan.baidu.com/s/10F-DZPstvBw7Cmg5AvaUUA?pwd=9pjp

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.linear_model import LogisticRegression heart_disease = pd.read_csv("data/heart_disease.csv") heart_disease = heart_disease.dropna() X = heart_disease.drop("是否患有心脏病", axis=1) y = heart_disease["是否患有心脏病"] x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

4.2 特征工程（数值型、类别型、二元型分开处理）

numerical_features = ["年龄", "静息血压", "胆固醇", "最大心率", "运动后的 ST 下降", "主血管数量"] categorical_features = ["胸痛类型", "静息心电图结果", "峰值 ST 段的斜率", "地中海贫血"] binary_features = ["性别", "空腹血糖", "运动性心绞痛"] preprocessor = ColumnTransformer([ ("num", StandardScaler(), numerical_features), ("cat", OneHotEncoder(drop="first"), categorical_features), ("binary", "passthrough", binary_features), ]) x_train = preprocessor.fit_transform(x_train) x_test = preprocessor.transform(x_test)

对类别特征使用drop="first"是为了避免多重共线性，让矩阵满秩，参数可唯一确定。

4.3 训练与评估

model = LogisticRegression() model.fit(x_train, y_train) acc = model.score(x_test, y_test) print(f"测试集准确率: {acc:.4f}")

训练后可通过model.coef_查看每个特征的重要性。

5. 多分类任务：从二分类到多分类

逻辑回归天生做二分类，但可以扩展到多分类。主要有两种方法。

5.1 一对多（One-vs-Rest, OvR）

对每个类别训练一个二分类器（本类 vs 其余）
预测时取概率最高的类别
类别数量多时训练慢

5.2 Softmax 回归（多项逻辑回归）

只训练一个模型
使用 Softmax 函数输出所有类别的概率
概率之和为 1，分类一致性更好

Softmax 公式：

P(y=c∣x)=eβcTx∑j=1CeβjTxP(y=c∣x)=∑j=1CeβjTxeβcTx

scikit-learn 切换方式：

# 一对多 model = LogisticRegression(multi_class="ovr") # Softmax model = LogisticRegression(multi_class="multinomial")

对于多分类，LogisticRegression 默认自动使用multinomial（如果求解器支持）。

6. 实战二：手写数字识别（多分类）

MNIST 手写数字（0-9），每张图 28×28 像素，共 784 个特征。

6.1 加载并查看一张图片

数据集下载：https://pan.baidu.com/s/1xg4UnBRx2h0ysmhmAttn8g?pwd=6tzw

import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler from sklearn.linear_model import LogisticRegression digit = pd.read_csv("data/train.csv") plt.imshow(digit.iloc[10, 1:].values.reshape(28, 28), cmap="gray") plt.show()

6.2 归一化 + 训练

X = digit.drop("label", axis=1) y = digit["label"] x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100) scaler = MinMaxScaler() x_train = scaler.fit_transform(x_train) x_test = scaler.transform(x_test) model = LogisticRegression(max_iter=500) # 增加迭代次数，确保收敛 model.fit(x_train, y_train) print(f"测试集准确率: {model.score(x_test, y_test):.4f}")

6.3 预测单张图片

plt.imshow(digit.iloc[123, 1:].values.reshape(28, 28), cmap="gray") plt.show() print(model.predict(digit.iloc[123, 1:].values.reshape(1, -1)))

特征维度高达 784，默认max_iter=100可能不够，需要调大。

7. 总结

逻辑回归为什么能成为分类任务的“基石”？

优点	解释
输出概率	可解释性强，适合需要置信度的场景
线性决策边界	简单、不易过拟合
损失函数是凸函数	有全局最优解，训练稳定
正则化支持良好	L1 / L2 / ElasticNet，有效防止过拟合
多分类扩展	OvR 或 Softmax，灵活应对不同规模的问题
训练速度快，特征重要性可解释	系数直接反映特征影响方向与大小