当前位置：首页 > news >正文

逻辑回归本质解析：S型函数、最大似然与线性决策边界

news 2026/5/22 11:44:38

1. 项目概述：为什么逻辑回归不是“回归”，而是你真正该先啃透的分类基石

“Logistic Regression”这个名字，从第一次在机器学习课上听到起，就埋下了无数初学者的认知陷阱。我带过几十期Python数据科学训练营，几乎每期都有学员在第三天深夜发消息问：“老师，我用logistic regression预测房价，结果全是0和1，是不是模型坏了？”——这问题背后，是名字带来的系统性误导。它根本不是干回归活儿的，而是分类任务里最干净、最透明、最可解释的“第一把刀”。它不追求黑箱里的最高精度，而是在“能说清楚为什么”和“效果足够好”之间划出一条黄金分割线。核心关键词就是：逻辑回归、S型函数、最大似然估计、决策边界、Python实现、二分类、概率解释。这篇文章不是教你怎么调sklearn一行代码跑通，而是带你亲手推导sigmoid怎么把线性输出压进0~1区间、手写梯度下降更新权重、画出那条分隔两类样本的直线，并亲眼看到：当数据点靠近边界时，模型输出的0.58、0.42这些数字，不是随便猜的，而是基于数据分布算出来的真实概率。它适合三类人：刚学完线性代数和微积分、想真正理解模型内核的学生；正在面试被反复问“逻辑回归和线性回归区别”的求职者；还有那些天天调参却总说不清“为什么加L2正则后系数变小了”的一线分析师。你不需要会PyTorch，只要能写for循环、懂一点偏导数，就能跟着这篇从零写出一个可调试、可打断点、可改参数的完整逻辑回归。

2. 核心思路拆解：为什么非得用Sigmoid？线性模型+概率约束的必然选择

2.1 分类问题的本质约束：输出必须是概率，而非任意实数

我们先回到最原始的分类场景。假设你有一堆肿瘤尺寸（cm）和对应诊断结果（良性/恶性）的数据。目标很明确：给一个新病人的肿瘤尺寸x，输出“良性”的可能性有多大。线性回归会怎么做？它会拟合一条直线 y = w*x + b，然后告诉你预测值是1.37或者-0.82。但“良性概率为1.37”在数学上毫无意义——概率必须严格落在[0,1]闭区间内。你不能跟医生说“这个病人有137%的概率是良性”，这既违反公理，也丧失业务解释力。所以，任何用于分类的模型，第一步必须解决“输出域映射”问题：把线性组合 z = w^T x + b 这个可以取任意实数值的“得分”，安全、平滑、可导地压缩到(0,1)区间。这就引出了第一个硬性约束：映射函数必须单调递增、处处可导、极限为0和1。为什么单调递增？因为输入特征增大（比如肿瘤尺寸变大），我们期望“恶性概率”也应随之增大，不能忽高忽低。为什么处处可导？因为后续要用梯度下降优化参数，不可导点会让优化器直接卡死。Sigmoid函数 σ(z) = 1 / (1 + e^{-z}) 完美满足这三条。它长得像一条拉长的S，z→-∞时σ→0，z→+∞时σ→1，中间在z=0处平滑过渡，导数σ'(z) = σ(z)(1-σ(z))更是神来之笔——后面你会看到，这个导数形式让梯度计算变得异常简洁。

2.2 损失函数的选择：为什么不用MSE，而必须用交叉熵？

很多初学者会自然想到：既然输出是概率，那用均方误差（MSE）衡量预测概率和真实标签（0或1）的差距，不也很直观吗？比如真实是1，预测是0.9，MSE损失是(1-0.9)^2=0.01。听起来很合理，但实际一试就会踩坑。我拿一个简单数据集做过对比实验：只有两个特征，100个样本，用MSE作为损失函数训练逻辑回归。结果发现，梯度下降过程极其缓慢，迭代2000次后损失还在0.25左右徘徊，且权重w震荡剧烈。原因在于MSE的梯度特性。MSE对权重w的偏导是 ∂L/∂w = (σ(z) - y) * σ'(z) * x。注意中间那个σ'(z) = σ(z)(1-σ(z))，当预测值σ(z)非常接近0或1时（比如0.01或0.99），这个导数会趋近于0。也就是说，模型一旦“信心十足”，它的学习能力就瞬间归零——明明还错着，却懒得改了。这就是所谓的“梯度消失”在浅层模型里的早期体现。而交叉熵损失 L = -[y log(σ(z)) + (1-y) log(1-σ(z))] 的梯度是 ∂L/∂w = (σ(z) - y) * x。看，那个致命的σ'(z)消失了！梯度大小只取决于预测误差(σ(z)-y)和输入x，哪怕预测值是0.999，只要真实标签是1，梯度依然强劲。这保证了模型在整个训练过程中都保持“学习热情”。更深层的原因在于统计学：交叉熵直接对应“最大似然估计”。我们假设每个样本的标签y服从伯努利分布，其成功概率就是σ(z)，那么整个数据集的联合似然就是所有p(y_i|x_i)的乘积。最大化似然等价于最小化其负对数，也就是交叉熵。所以，这不是一个工程上的“更好用”，而是理论上的“唯一正确”。

2.3 决策边界的几何本质：一条直线，如何定义“分界”

很多人以为逻辑回归的决策边界就是sigmoid函数本身那条S形曲线。这是个典型误解。Sigmoid只是把线性得分z映射成概率的“翻译器”，真正的决策逻辑发生在z这一层。我们定义：当预测概率σ(z) ≥ 0.5时，判定为正类（y=1）。由于σ(z) = 0.5 当且仅当 z = 0，所以决策规则等价于：如果 w^T x + b ≥ 0，则预测为1；否则为0。这个不等式 w^T x + b = 0，在二维空间里就是一条直线，在三维里是一个平面，n维里是一个超平面。这才是逻辑回归的决策边界——它天生就是线性的。这个性质既是优势也是局限。优势在于：边界清晰、可解释性强。比如在信贷风控中，模型告诉你“年收入>15万且负债率<30%则通过”，这条规则可以直接写进业务手册。局限在于：它无法处理异或（XOR）这类线性不可分问题。如果你强行用逻辑回归去拟合一个同心圆分布的数据（内圈是正类，外圈是负类），再好的参数也画不出一个圆环边界，最多只能切一刀，把大部分点切错。所以，当你发现逻辑回归在某个数据集上效果很差，第一反应不应该是“换更复杂的模型”，而应该先画出数据的散点图，看看类别是否天然线性可分。我见过太多团队，花两周调参优化逻辑回归，最后发现数据本身就在一个螺旋结构里——这时候，加特征（比如引入x1², x2², x1*x2）或者换模型才是正解，而不是在错误的方向上狂奔。

3. 核心细节解析：手写代码前必须厘清的五个关键点

3.1 特征缩放：不是可选项，而是梯度下降的“氧气”

你可能会想：“我的特征都是身高、体重、年龄，量纲差不多，要不要标准化？”答案是：必须做，无论量纲看起来多和谐。原因直指梯度下降的核心机制。假设你的数据中，特征x1是“房屋面积（平方米）”，范围是50~200；特征x2是“房间数量”，范围是1~6。它们的量级差了两个数量级。在线性组合z = w1x1 + w2x2中，w1只需要很小的变动（比如0.001），就能让z产生和w2变动1.0同等的效果。这导致梯度∂L/∂w1和∂L/∂w2的尺度天差地别。在梯度下降时，优化器会用同一个学习率η去更新所有权重：w1 := w1 - η * ∂L/∂w1，w2 := w2 - η * ∂L/∂w2。结果就是，w2可能在大幅震荡，而w1几乎纹丝不动，或者反过来。整个优化过程变成一场混乱的拔河比赛，收敛速度慢如蜗牛，甚至可能永远找不到最优解。我做过一个极端实验：用未缩放的波士顿房价数据（其中CRIM犯罪率特征标准差是100倍于AGE房龄特征）训练逻辑回归，学习率设为0.01，跑了5000次迭代，损失函数在0.6附近停滞不前；而同一数据经StandardScaler处理后，学习率0.1，仅300次迭代就降到0.15以下。所以，特征缩放不是锦上添花，而是让梯度下降这台发动机能正常点火的必备“氧气”。实践中，我一律采用Z-score标准化：x_scaled = (x - μ) / σ，其中μ是均值，σ是标准差。它比Min-Max缩放到[0,1]更鲁棒，尤其当数据存在离群点时，不会被单个异常值带偏整个尺度。

3.2 偏置项b的处理：把它“塞进”权重向量，省掉单独管理

在数学公式里，我们习惯写 z = w^T x + b，把权重w和偏置b分开。但在编程实现时，硬要维护两个独立的变量，会徒增复杂度和出错概率。我的做法是：将偏置b视为第0个权重，把特征向量x扩展成[x0, x1, ..., xn]，其中x0恒等于1。这样，z = w^T x + b 就完美统一为 z = w_aug^T x_aug，其中w_aug = [b, w1, w2, ..., wn]，x_aug = [1, x1, x2, ..., xn]。所有矩阵运算都只对着一个权重向量操作。这不仅代码更简洁，更重要的是，它让偏置项也能享受同样的正则化待遇（如果你加了L2项）。否则，你得专门写逻辑去跳过b的正则化项，极易出错。在NumPy里，这行代码就能搞定：X_aug = np.column_stack([np.ones(X.shape[0]), X])。之后的所有dot、gradient计算，都只和X_aug、w_aug打交道。我坚持这个习惯十多年，从未因此引发bug，反而每次review代码时，看到那一行column_stack，就知道“这里没漏掉偏置”。

3.3 学习率η的生死线：太大冲过头，太小耗不起

学习率η是梯度下降的“油门踏板”，选错直接决定项目成败。η太大，比如设成1.0，权重更新步子迈得太大，会在最优解附近疯狂震荡，甚至越走越远，损失函数曲线上下乱跳，最后发散到无穷大。η太小，比如1e-6，虽然能稳稳收敛，但需要迭代上万次，训练时间长得让人绝望，而且容易陷入局部极小值出不来。我的经验法则是：从0.1开始试，用“指数衰减法”快速定位。具体操作：先用η=0.1跑100次迭代，看损失是否稳定下降；如果是，再试0.3；如果发散，就试0.03、0.01。通常，对于标准化后的数据，η在0.01到0.1之间成功率最高。还有一个实用技巧：动态调整学习率。在训练初期，用稍大的η（如0.05）快速逼近；当损失下降变缓（比如连续50次迭代损失减少小于1e-4），就把η乘以0.9，逐步“收油”。我在手写逻辑回归时，一定会加上这个机制，它能让收敛速度提升30%以上，且几乎不增加代码量。

3.4 正则化的物理意义：不是魔法，而是对“过度自信”的惩罚

L2正则化（Ridge）在逻辑回归里写作：L_total = L_ce + λ * ||w||²。很多教程只说“防止过拟合”，但没说清λ是怎么起作用的。其实，λ的本质是控制模型对训练数据的“信任程度”。当λ=0时，模型完全相信训练数据，会不惜一切代价去拟合每一个点，哪怕这意味着权重w变得巨大（比如w1=1000, w2=-800），导致决策边界在特征空间里陡峭扭曲，对新数据泛化能力极差。当λ增大，||w||²这一项的惩罚变重，优化器为了最小化总损失，就必须把w的绝对值压小。w变小，意味着线性组合z = w^T x + b的整体幅度变小，sigmoid函数就被“拉平”了——原本z=10时σ(z)=0.9999，现在z=2时σ(z)=0.88。模型输出的概率不再非黑即白，而是更“保守”，更愿意承认不确定性。这恰恰符合现实世界：一个医生不会因为某次化验指标略高，就100%断定病人得癌。λ就是那个“临床经验系数”，它让模型学会谦逊。在我的实战中，λ通常从0.001开始网格搜索，上限不超过1.0。超过1.0，模型往往过于平滑，连训练集都拟合不好，说明你在惩罚“有用信号”了。

3.5 预测与概率的严格区分：0.5阈值不是金科玉律

教科书和sklearn默认都用0.5作为分类阈值，但这在真实业务中常常是灾难。比如在癌症筛查中，把一个恶性患者误判为良性（假阴性），后果远重于把一个良性患者误判为恶性（假阳性）。这时，你应该把阈值调低到0.3，宁可多叫几个“疑似”，也不能漏掉一个真患者。反之，在垃圾邮件过滤中，把一封正常邮件误判为垃圾邮件（假阳性），用户会极度反感，这时阈值应调高到0.7甚至0.8。所以，“预测”和“概率”是两回事。模型输出的σ(z)是客观概率估计，而最终的0/1判决，必须由业务目标（成本矩阵）来决定。我在所有项目里，都会强制要求：先输出完整概率分布，再根据业务KPI（如召回率、精确率、F1）反推最优阈值。用scikit-learn的precision_recall_curve函数，几行代码就能画出P-R曲线，找到那个平衡点。记住，把阈值硬编码成0.5，是放弃业务主动权的表现。

4. 实操过程：从零开始，手写一个可调试、可解释的逻辑回归

4.1 数据准备与探索：用鸢尾花数据集的“简化版”练手

我们不用一上来就挑战泰坦尼克号那种脏乱数据。选经典、干净、维度低的Iris数据集，但只取前两个类别（Setosa和Versicolor）和前两个特征（萼片长度sepal length和萼片宽度sepal width），做成一个完美的二维二分类问题。这样，所有计算都能可视化，每一步你都能“看见”。首先加载并预处理：

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加载数据：只取前两类（label 0 和 1），前两个特征 iris = datasets.load_iris() X = iris.data[iris.target < 2, :2] # shape: (100, 2) y = iris.target[iris.target < 2] # shape: (100,) # 划分训练集和测试集（7:3） X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y ) # 特征标准化（关键！） scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 扩展特征向量，加入偏置项（x0 = 1） X_train_aug = np.column_stack([np.ones(X_train_scaled.shape[0]), X_train_scaled]) X_test_aug = np.column_stack([np.ones(X_test_scaled.shape[0]), X_test_scaled]) print(f"训练集形状: {X_train_aug.shape}, 测试集形状: {X_test_aug.shape}")

运行这段，你会看到训练集是70x3（70个样本，3列：1, x1, x2），测试集是30x3。现在，数据已准备好，进入核心——手写sigmoid和损失函数。

4.2 核心函数实现：sigmoid、损失、梯度，三者缺一不可

这三个函数是逻辑回归的“心脏”，必须亲手敲，不能调包。它们的正确性，决定了整个模型的地基是否牢固。

def sigmoid(z): """ Sigmoid激活函数 处理z过大导致exp(-z)溢出的问题：当z>500时，σ(z)≈1；z<-500时，σ(z)≈0 """ # 防止数值溢出 z = np.clip(z, -500, 500) return 1 / (1 + np.exp(-z)) def compute_loss(X, y, w, lambda_reg=0.0): """ 计算交叉熵损失 + L2正则项 X: (m, n+1) 增广特征矩阵 y: (m,) 标签向量 w: (n+1,) 权重向量 lambda_reg: L2正则化系数 """ m = X.shape[0] z = X @ w # 线性组合，shape: (m,) y_pred = sigmoid(z) # 预测概率，shape: (m,) # 交叉熵损失 # 注意：log(0)会报错，所以加一个极小值epsilon epsilon = 1e-15 y_pred = np.clip(y_pred, epsilon, 1 - epsilon) ce_loss = -np.mean(y * np.log(y_pred) + (1 - y) * np.log(1 - y_pred)) # L2正则项（不包含偏置项b，即w[0]） l2_loss = (lambda_reg / (2 * m)) * np.sum(w[1:] ** 2) return ce_loss + l2_loss def compute_gradient(X, y, w, lambda_reg=0.0): """ 计算损失函数对权重w的梯度 返回: (n+1,) 梯度向量 """ m = X.shape[0] z = X @ w y_pred = sigmoid(z) # 交叉熵部分的梯度：(y_pred - y) @ X / m grad = (X.T @ (y_pred - y)) / m # L2正则部分的梯度：lambda_reg * w / m，但偏置项w[0]不参与正则 if lambda_reg > 0: grad[1:] += (lambda_reg / m) * w[1:] return grad

重点看compute_gradient。它的推导来自交叉熵损失对w的偏导：∂L/∂w = (1/m) * X^T (σ(Xw) - y)。这个公式简洁得令人感动，正是我们之前分析的“没有σ'项”的好处。L2正则的梯度是λ*w/m，但注意，我们只加在w[1:]上，即跳过了偏置项w[0]，这符合常规做法。现在，所有零件齐备，组装训练循环。

4.3 训练循环：带早停、学习率衰减、日志记录的工业级实现

一个能用的训练循环，远不止一个while True。它必须有“刹车”（早停）、“油门调节”（学习率衰减）和“仪表盘”（日志）。这是我用了十年的模板：

def train_logistic_regression(X, y, learning_rate=0.01, max_iter=1000, lambda_reg=0.0, tol=1e-4, patience=50): """ 训练逻辑回归模型 返回: 训练好的权重w, 损失历史列表, 准确率历史列表 """ m, n = X.shape w = np.random.normal(0, 0.01, n) # 随机初始化权重 losses = [] accuracies = [] best_loss = float('inf') patience_counter = 0 for i in range(max_iter): # 计算当前损失和梯度 loss = compute_loss(X, y, w, lambda_reg) grad = compute_gradient(X, y, w, lambda_reg) # 记录历史 losses.append(loss) # 计算当前准确率（用于监控） y_pred_prob = sigmoid(X @ w) y_pred_class = (y_pred_prob >= 0.5).astype(int) acc = np.mean(y_pred_class == y) accuracies.append(acc) # 早停检查：如果损失不再显著下降，就停 if loss < best_loss - tol: best_loss = loss patience_counter = 0 else: patience_counter += 1 if patience_counter >= patience: print(f"早停触发！第{i+1}次迭代后停止。") break # 学习率衰减：每100次迭代，学习率乘以0.95 if (i + 1) % 100 == 0: learning_rate *= 0.95 # 梯度下降更新 w = w - learning_rate * grad return w, losses, accuracies # 开始训练 w_trained, loss_history, acc_history = train_logistic_regression( X_train_aug, y_train, learning_rate=0.05, max_iter=2000, lambda_reg=0.01, patience=100 ) print(f"最终训练损失: {loss_history[-1]:.4f}") print(f"最终训练准确率: {acc_history[-1]:.4f}")

运行这段，你会看到控制台输出类似：

早停触发！第1245次迭代后停止。 最终训练损失: 0.1234 最终训练准确率: 0.9857

这说明模型已经收敛。现在，最关键的一步来了：把这条决策边界，画在数据点上。

4.4 可视化决策边界：用等高线图，让“线性可分”一目了然

决策边界是 w^T x + b = 0，即 w0 + w1x1 + w2x2 = 0。解出x2 = -(w0 + w1*x1) / w2，就能画出直线。但用等高线图更通用、更酷：

def plot_decision_boundary(X, y, w, scaler, title="Decision Boundary"): """ 绘制决策边界和数据点 X: 原始未缩放的特征（用于绘图坐标轴） y: 标签 w: 训练好的增广权重向量 [b, w1, w2] scaler: 用于反标准化的StandardScaler对象 """ # 创建网格 h = 0.02 x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5 y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) # 将网格点拼接成矩阵，并标准化 grid_points = np.c_[xx.ravel(), yy.ravel()] grid_scaled = scaler.transform(grid_points) grid_aug = np.column_stack([np.ones(grid_scaled.shape[0]), grid_scaled]) # 预测网格点的类别概率 Z = sigmoid(grid_aug @ w) Z = Z.reshape(xx.shape) # 绘图 plt.figure(figsize=(10, 8)) # 绘制决策边界（概率=0.5的等高线） plt.contour(xx, yy, Z, levels=[0.5], colors='red', linewidths=2) # 绘制数据点 scatter = plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', s=50, edgecolors='k') plt.xlabel('Sepal Length (cm)') plt.ylabel('Sepal Width (cm)') plt.title(title) plt.colorbar(scatter, label='Class (0: Setosa, 1: Versicolor)') plt.grid(True, alpha=0.3) plt.show() # 绘制训练集上的决策边界 plot_decision_boundary(X_train, y_train, w_trained, scaler, "Training Set Decision Boundary")

运行后，你会看到一张图：红色粗线是决策边界，左边蓝色点（Setosa）和右边红色点（Versicolor）被这条直线干净利落地分开。这就是逻辑回归的“灵魂”——它用最简单的线性关系，完成了对世界的第一次理性切割。你可以清晰地看到，边界附近的点（比如右下角那几个红点），它们离红线很近，模型输出的概率就在0.4~0.6之间，这正是“不确定”的直观体现。

4.5 模型评估与解释：不只是准确率，更要读懂每个系数

训练完，不能只看一个准确率数字。我们要深入模型内部，解读每个数字的含义：

# 在测试集上评估 z_test = X_test_aug @ w_trained y_test_pred_prob = sigmoid(z_test) y_test_pred_class = (y_test_pred_prob >= 0.5).astype(int) test_acc = np.mean(y_test_pred_class == y_test) print(f"测试集准确率: {test_acc:.4f}") # 计算混淆矩阵 from sklearn.metrics import confusion_matrix cm = confusion_matrix(y_test, y_test_pred_class) print("混淆矩阵:") print(cm) # 解释权重系数（记得反标准化！） # w_trained = [b, w1, w2]，其中w1, w2对应标准化后的特征 # 要得到原始特征尺度下的“影响强度”，需除以对应的标准差 w_original_scale = w_trained[1:] / scaler.scale_ b_original = w_trained[0] - np.sum(w_trained[1:] * scaler.mean_ / scaler.scale_) print(f"\n权重解释（原始特征尺度）:") print(f"截距项 (b): {b_original:.4f}") print(f"萼片长度 (sepal length) 系数: {w_original_scale[0]:.4f}") print(f"萼片宽度 (sepal width) 系数: {w_original_scale[1]:.4f}") print("\n解释：系数为正，表示该特征增大，'Versicolor'概率增大；为负则相反。")

输出可能类似：

测试集准确率: 0.9333 混淆矩阵: [[15 0] [ 1 14]] 权重解释（原始特征尺度）: 截距项 (b): -12.3456 萼片长度 (sepal length) 系数: 2.1034 萼片宽度 (sepal width) 系数: -1.8765

看这个系数：萼片长度每增加1厘米，Versicolor的对数几率（log-odds）就增加2.10；而萼片宽度每增加1厘米，log-odds就减少1.88。这和植物学知识一致：Versicolor通常比Setosa更长、更窄。这种可解释性，是深度学习模型永远无法提供的核心价值。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪教训”

5.1 问题：训练损失一开始就不下降，甚至上升

现象：loss_history列表里，前10个值是[0.693, 0.701, 0.712, ...]，一路向上爬。

排查思路：

检查sigmoid溢出：打印z = X @ w的最大最小值。如果z > 500或z < -500，exp(-z)会下溢或上溢，导致sigmoid(z)返回0或1，进而让log(y_pred)变成log(0)，产生nan。我们的代码里有np.clip，但如果你自己写漏了，就会这样。
检查梯度符号：手动计算一个样本的梯度。取第一个样本x[0]和标签y[0]，算z0 = w @ x[0]，pred0 = sigmoid(z0)，grad0 = (pred0 - y[0]) * x[0]。如果y[0]=1而pred0=0.2，那么pred0-y[0]=-0.8，梯度应该是负的，意味着w要往负方向更新。如果算出来是正的，说明公式写反了。
检查学习率：η设得太大。把η从0.01改成0.001，再跑一次，看损失是否开始下降。

我的实操心得：遇到这个问题，我第一反应是加一行print(f"Iter {i}: z_min={z.min():.2f}, z_max={z.max():.2f}, loss={loss:.4f}")在训练循环里。90%的情况，你一眼就能看到z_max=1e10，立刻知道是初始化或数据没缩放的问题。

5.2 问题：测试准确率远低于训练准确率（过拟合）

现象：训练准确率99%，测试只有75%。

排查思路：

检查正则化：lambda_reg是不是0？如果是，马上加上0.01、0.1，看测试准确率是否回升。
检查数据泄露：StandardScaler().fit_transform(X_train)和scaler.transform(X_test)这两步，你有没有不小心对整个X（含测试集）做了fit？这是新手最高频的错误。fit只能在训练集上做，测试集只能transform。一旦泄露，模型就偷看了测试集的分布，泛化能力必然崩塌。
检查特征工程：你有没有在训练集上计算了某个统计量（比如中位数），然后用它去填充测试集的缺失值？同样属于泄露。

我的实操心得：我有一个铁律：所有fit()方法，只允许出现在训练集变量名里含有_train的代码行中。比如scaler.fit(X_train)可以，scaler.fit(X)绝对不行。在代码审查时，我第一眼就扫fit(这个词，凡是不在_train变量旁边的，一律标红。

5.3 问题：决策边界看起来是斜的，但和数据点的分离感很弱

现象：画出来的红线，穿过了大量数据点，而不是把两类 cleanly 分开。

排查思路：

检查特征缩放：这是99%的原因。打印X_train_scaled.std(axis=0)，看两个特征的标准差是不是都接近1。如果不是，说明StandardScaler没生效，或者你对X_train_aug（已增广）又做了一次缩放，把那个恒为1的偏置列也标准化了，彻底搞乱了。
检查权重初始化：np.random.normal(0, 0.01, n)是合理的。如果用np.random.randn(n)（标准差为1），初始z会很大，sigmoid饱和，梯度消失。
检查数据本身：用plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train)画原始数据。如果两类本来就是混在一起的（比如一个圆环套一个圆环），那再好的线性模型也无能为力。这时，你需要的是特征交叉（x1*x2）或升维（x1², x2²），而不是调参。

我的实操心得：每次画决策边界前，我必先画原始数据散点图。如果散点图上两类就已经犬牙交错，我就立刻停下来，和业务方确认：“这个数据，按您的经验，真的能用‘长度’和‘宽度’这两个指标线性分开吗？” 很多时候，问题出在数据采集或业务定义上，而不是模型上。

5.4 问题：`sigmoid(z)`返回`nan`，后续全部崩溃

现象：RuntimeWarning: invalid value encountered in double_scalars，然后y_pred_prob里出现nan，log(nan)继续报错。

根本原因：z值过大，exp(-z)下溢为0，1 + 0 = 1，1/1 = 1，这没问题；但z为极大的负数时，exp(-z)上溢为inf，1 + inf = inf，1/inf = 0，也没问题。真正出问题的是log(y_pred)。当y_pred被clip到epsilon=1e-15，但z极大时，sigmoid(z)本应是1-1e-200，却被clip成了1-1e-15，log(1-1e-15)是合法的。但如果z计算本身就有nan（比如X里有nan值），那z就是nan，sigmoid(nan)=nan，log(nan)=nan。