当前位置：首页 > news >正文

别再死记硬背公式了！用Python代码一步步推导交叉熵损失函数（附PyTorch/TensorFlow实现对比）

news 2026/5/28 9:17:21

用Python代码手撕交叉熵：从信息论到PyTorch/TensorFlow实战

当你在PyTorch中写下nn.CrossEntropyLoss()时，是否思考过这个黑箱里究竟发生了什么？本文将带你用Python代码一步步拆解交叉熵的前世今生，从信息量的定义开始，逐步构建出完整的损失函数实现，最后对比主流框架的实现差异。

1. 从信息量到交叉熵的代码化旅程

1.1 信息量的Python表达

信息量的概念由香农提出，衡量一个事件带来的"惊喜程度"。对于概率为p的事件，其信息量I(p) = -log(p)。让我们用Python实现这个基础概念：

import numpy as np def information_content(p: float) -> float: """计算单个事件的信息量""" return -np.log(p) # 示例：预测概率为0.8的事件实际发生了 print(f"信息量: {information_content(0.8):.4f} nats") # 输出约0.2231

有趣的是，当p=1时（确定事件），信息量为0；而p趋近0时，信息量趋近无穷大。这符合直觉——极不可能的事件发生时，带来的信息冲击越大。

1.2 信息熵的代码实现

信息熵是信息量的期望值，描述系统的不确定性。对于一个离散概率分布P，其熵H(P) = -Σp_i*log(p_i)。实现如下：

def entropy(probs: np.ndarray) -> float: """计算离散概率分布的熵""" return -np.sum(probs * np.log(probs + 1e-15)) # 加小量避免log(0) # 示例：公平硬币抛掷的熵 fair_coin = np.array([0.5, 0.5]) print(f"公平硬币熵: {entropy(fair_coin):.4f} nats") # 0.6931 # 有偏硬币(90%正面)的熵 biased_coin = np.array([0.9, 0.1]) print(f"有偏硬币熵: {entropy(biased_coin):.4f} nats") # 0.3251

熵值越大，系统不确定性越高。最大熵出现在均匀分布时，这与我们的直觉一致——当硬币完全公平时，结果最难预测。

1.3 KL散度的Python实现

KL散度衡量两个概率分布Q与P的差异：D_KL(P||Q) = Σp_i*log(p_i/q_i)。注意它不是对称的：

def kl_divergence(p: np.ndarray, q: np.ndarray) -> float: """计算KL散度D_KL(P||Q)""" return np.sum(p * np.log((p + 1e-15) / (q + 1e-15))) # 示例：比较两个分布 p = np.array([0.8, 0.2]) q = np.array([0.6, 0.4]) print(f"D_KL(P||Q): {kl_divergence(p, q):.4f}") # 约0.0915 print(f"D_KL(Q||P): {kl_divergence(q, p):.4f}") # 约0.1054

KL散度在机器学习中至关重要——我们通常希望模型预测分布Q尽可能接近真实分布P。

2. 交叉熵的完整实现与验证

2.1 交叉熵的数学本质

交叉熵H(P,Q) = H(P) + D_KL(P||Q) = -Σp_i*log(q_i)。当P固定时，最小化交叉熵等价于最小化KL散度。实现如下：

def cross_entropy(p: np.ndarray, q: np.ndarray) -> float: """计算交叉熵H(P,Q)""" return -np.sum(p * np.log(q + 1e-15)) # 验证与KL散度的关系 p = np.array([0.7, 0.3]) q = np.array([0.6, 0.4]) h_p = entropy(p) kl = kl_divergence(p, q) h_pq = cross_entropy(p, q) print(f"H(P)={h_p:.4f}, D_KL={kl:.4f}, H(P,Q)={h_pq:.4f}") print(f"验证H(P)+D_KL = {h_p + kl:.4f} ≈ H(P,Q)")

2.2 分类任务中的交叉熵

在分类任务中，真实标签P通常是one-hot向量（如[0,0,1,0]），此时H(P,Q)简化为-log(q_k)，其中k是真实类别：

def categorical_cross_entropy(true_label: int, pred_probs: np.ndarray) -> float: """分类任务中的交叉熵(真实标签为整数索引)""" return -np.log(pred_probs[true_label] + 1e-15) # 示例：三分类问题 true_class = 2 # 真实类别索引(从0开始) pred_probs = np.array([0.2, 0.3, 0.5]) # 模型预测概率 print(f"交叉熵损失: {categorical_cross_entropy(true_class, pred_probs):.4f}")

3. 从理论到实践：PyTorch与TensorFlow实现解析

3.1 PyTorch实现剖析

PyTorch的交叉熵损失(nn.CrossEntropyLoss)实际上是softmax交叉熵的组合实现。我们拆解其步骤：

import torch import torch.nn as nn # PyTorch的实现方式 logits = torch.tensor([[2.0, 1.0, 0.1]], requires_grad=True) # 模型原始输出(未归一化) target = torch.tensor([0]) # 真实类别索引 loss_fn = nn.CrossEntropyLoss() loss = loss_fn(logits, target) print(f"PyTorch CE loss: {loss.item():.4f}") # 手动实现验证 softmax = torch.softmax(logits, dim=1) manual_loss = -torch.log(softmax[0, target]) print(f"手动计算loss: {manual_loss.item():.4f}")

关键点：

直接接受logits(未经过softmax)，数值更稳定
内部组合了softmax和负对数似然
支持batch处理和多种reduction模式(mean, sum, none)

3.2 TensorFlow实现对比

TensorFlow提供了更灵活的实现方式：

import tensorflow as tf # TF的实现方式 logits = tf.constant([[2.0, 1.0, 0.1]]) labels = tf.constant([0]) # 真实类别索引 # 方式1: 组合式 softmax_ce = tf.nn.sparse_softmax_cross_entropy_with_logits( labels=labels, logits=logits) print(f"TF sparse softmax CE: {softmax_ce.numpy()[0]:.4f}") # 方式2: 分离式(需要预先softmax) probabilities = tf.nn.softmax(logits) manual_ce = tf.keras.losses.sparse_categorical_crossentropy( labels, probabilities, from_logits=False) print(f"TF手动softmax+CE: {manual_ce.numpy()[0]:.4f}")

TensorFlow的特点：

提供sparse_softmax_cross_entropy_with_logits等高效实现
支持稀疏标签(类别索引)和one-hot标签两种形式
可以分离softmax和交叉熵计算

3.3 数值稳定性实践

直接计算log(softmax)可能导致数值问题。实际实现中使用log-sum-exp技巧：

def stable_softmax_ce(logits: np.ndarray, label: int) -> float: """数值稳定的softmax交叉熵计算""" shifted_logits = logits - np.max(logits) # 避免指数爆炸 log_z = np.log(np.sum(np.exp(shifted_logits))) return -shifted_logits[label] + log_z logits = np.array([1000, 1000, 800]) # 极端例子 print(f"原始计算: {cross_entropy([1,0,0], softmax(logits))}") # 可能得到nan print(f"稳定计算: {stable_softmax_ce(logits, 0):.4f}") # 正确结果约0.6931

4. 交叉熵的变体与应用场景

4.1 二分类：Sigmoid交叉熵

对于二分类任务，常用sigmoid配合交叉熵：

def binary_cross_entropy(y_true: float, y_pred: float) -> float: """二分类交叉熵""" return -(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)) # PyTorch实现对比 bce_loss = nn.BCELoss() sigmoid = torch.sigmoid(torch.tensor([1.0])) # 假设模型输出logit=1.0 print(f"手动BCE: {binary_cross_entropy(1, sigmoid.item()):.4f}") print(f"PyTorch BCE: {bce_loss(sigmoid, torch.tensor([1.0])).item():.4f}")

4.2 带权重的交叉熵

处理类别不平衡时，可以为不同类别分配权重：

def weighted_cross_entropy( true_label: int, pred_probs: np.ndarray, class_weights: np.ndarray ) -> float: """带类别权重的交叉熵""" return -class_weights[true_label] * np.log(pred_probs[true_label] + 1e-15) # 示例：三分类，第三类权重为2.0 weights = np.array([1.0, 1.0, 2.0]) print(f"加权CE: {weighted_cross_entropy(2, [0.1,0.1,0.8], weights):.4f}")

4.3 标签平滑(Label Smoothing)

防止模型对标签过于自信的技术：

def label_smoothing_cross_entropy( true_label: int, pred_probs: np.ndarray, num_classes: int, epsilon=0.1 ) -> float: """标签平滑交叉熵""" smoothed_labels = np.full(num_classes, epsilon / (num_classes - 1)) smoothed_labels[true_label] = 1 - epsilon return cross_entropy(smoothed_labels, pred_probs) # 示例：三分类问题，真实类别为0 print(f"平滑CE: {label_smoothing_cross_entropy(0, [0.9,0.05,0.05], 3):.4f}")

5. 交叉熵的梯度分析与实现

理解交叉熵的梯度对实现自定义训练循环至关重要。

5.1 Softmax交叉熵的梯度推导

对于softmax交叉熵损失，梯度具有惊人的简洁形式：

∂L/∂z_i = softmax(z)_i - y_i

其中y_i是真实标签的one-hot编码。这意味着梯度就是预测误差：

def softmax_ce_gradient(logits: np.ndarray, true_label: int) -> np.ndarray: """计算softmax交叉熵对logits的梯度""" probs = np.exp(logits - np.max(logits)) # 数值稳定 probs /= np.sum(probs) grad = probs.copy() grad[true_label] -= 1 # 真实类别的梯度减1 return grad # 示例验证 logits = np.array([3.0, 1.0, 0.5]) true_class = 0 print(f"梯度: {softmax_ce_gradient(logits, true_class)}")

5.2 在PyTorch中验证梯度

我们可以用PyTorch的自动微分验证手动计算的梯度：

# PyTorch梯度验证 x = torch.tensor([[3.0, 1.0, 0.5]], requires_grad=True) target = torch.tensor([0]) loss = nn.CrossEntropyLoss()(x, target) loss.backward() print(f"PyTorch计算梯度: {x.grad[0].numpy()}") print(f"手动计算梯度: {softmax_ce_gradient(np.array([3.0,1.0,0.5]), 0)}")

5.3 二分类情况的梯度

对于sigmoid交叉熵，梯度同样简洁：

∂L/∂z_i = σ(z)_i - y_i

实现验证：

def sigmoid_ce_gradient(z: float, y_true: int) -> float: """计算sigmoid交叉熵对logit的梯度""" pred = 1 / (1 + np.exp(-z)) return pred - y_true # 示例 z = 2.0 # 模型输出logit y = 1 # 真实标签 print(f"Sigmoid梯度: {sigmoid_ce_gradient(z, y):.4f}")

查看全文

http://www.jsqmd.com/news/902229/