当前位置：首页 > news >正文

DAY33MLP神经网络的训练

news 2026/5/12 18:18:10

一、核心知识点回顾

1. 环境配置基础

核心操作：PyTorch 与 CUDA 的安装、验证及环境排查。
关键命令：
- 查看显卡信息：nvidia-smi（CMD 中使用）。
- CUDA 检查：验证 PyTorch 是否能调用 GPU 加速（.cuda()）。

2. MLP 训练全流程（PyTorch 标准五步法）

步骤	核心内容	关键要点
a. 数据预处理	归一化、转换为张量（Tensor）	将数据转化为模型可计算的数值格式，为训练做准备。
b. 模型定义	继承`nn.Module`类	1. 构建网络层（如全连接层`nn.Linear`）。2. 编写`forward`前向传播逻辑。
c. 损失与优化	定义损失函数、优化器	分类任务常用交叉熵损失，回归任务常用 MSE 损失；优化器如 SGD、Adam。
d. 训练流程	迭代训练	前向传播 ➔ 计算损失 ➔ 反向传播 ➔ 参数更新。
e. 可视化	绘制 Loss 曲线	监控训练过程，判断模型是否收敛或过拟合。

二、关键注意事项（避坑指南）

这是实际编码中极易出错的细节，必须严格遵守数据类型规范：

分类任务：标签（Label）必须转换为LongTensor类型。
- 原因：交叉熵损失函数（CrossEntropyLoss）要求目标标签为整数索引，若传入 Float 类型会报错。
回归任务：标签（Label）必须转换为FloatTensor类型（通常为torch.float32）。
- 原因：回归预测的是连续数值，需保持与输出数据类型一致。

三、模型设计思路

当前设定：图片中提到选择了2 层隐藏层且固定神经元数量。
类比理解：这类似于传统机器学习中指定超参数，是一种基础的网络结构设定。
未来方向：文中提到 “调参我们未来再提”，暗示后续会涉及神经元数量调整、网络层数加深等更复杂的模型优化内容。

总结

该内容处于深度学习实战入门阶段，重点在于规范搭建 MLP 训练流程。核心在于环境打通与数据类型匹配，只要保证标签类型正确，就能顺利完成第一次神经网络的训练与可视化。

import torch import torch.nn as nn import torch.optim as optim import numpy as np import matplotlib.pyplot as plt # ======================== 1. 环境配置与数据准备 ======================== # 检查CUDA是否可用，自动选择设备（GPU/CPU） device = torch.device("cuda" if torch.cuda.is_available() else "cpu") print(f"使用设备: {device}") # 生成模拟数据集（分类任务） # 输入特征维度：10，类别数：5，样本数：1000 input_dim = 10 num_classes = 5 sample_num = 1000 # 生成随机特征（float32类型） x = torch.randn(sample_num, input_dim, dtype=torch.float32).to(device) # 分类任务：标签必须是LongTensor（整数类型） y_classification = torch.randint(0, num_classes, (sample_num,), dtype=torch.long).to(device) # 回归任务：标签必须是FloatTensor（浮点类型） y_regression = torch.randn(sample_num, 1, dtype=torch.float32).to(device) # ======================== 2. 定义MLP模型（2层隐藏层） ======================== class MLP(nn.Module): def __init__(self, input_dim, hidden_dim1=64, hidden_dim2=32, output_dim=1, task_type="classification"): super(MLP, self).__init__() # 2层隐藏层（固定神经元数量，后续可调参） self.fc1 = nn.Linear(input_dim, hidden_dim1) # 第一层隐藏层 self.fc2 = nn.Linear(hidden_dim1, hidden_dim2) # 第二层隐藏层 self.fc3 = nn.Linear(hidden_dim2, output_dim) # 输出层 self.relu = nn.ReLU() # 激活函数 self.task_type = task_type def forward(self, x): # 前向传播 out = self.relu(self.fc1(x)) out = self.relu(self.fc2(out)) out = self.fc3(out) # 分类任务：输出层不加激活（CrossEntropyLoss内置Softmax） if self.task_type == "classification" and output_dim > 1: return out # 回归任务：直接输出连续值 return out # ======================== 3. 初始化模型、损失函数、优化器 ======================== # 分类任务配置 model_class = MLP(input_dim=input_dim, output_dim=num_classes, task_type="classification").to(device) criterion_class = nn.CrossEntropyLoss() # 分类损失 optimizer_class = optim.Adam(model_class.parameters(), lr=0.001) # 优化器 # 回归任务配置（可选） # model_reg = MLP(input_dim=input_dim, output_dim=1, task_type="regression").to(device) # criterion_reg = nn.MSELoss() # 回归损失 # optimizer_reg = optim.Adam(model_reg.parameters(), lr=0.001) # ======================== 4. 训练流程 ======================== epochs = 100 # 训练轮数 loss_history = [] # 记录损失变化 model_class.train() # 切换到训练模式 for epoch in range(epochs): # 前向传播 outputs = model_class(x) loss = criterion_class(outputs, y_classification) # 反向传播 + 参数更新 optimizer_class.zero_grad() # 清空梯度 loss.backward() # 反向传播 optimizer_class.step() # 更新参数 # 记录损失 loss_history.append(loss.item()) # 每10轮打印一次 if (epoch + 1) % 10 == 0: print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}') # ======================== 5. 可视化Loss曲线 ======================== plt.plot(loss_history) plt.xlabel('Epoch') plt.ylabel('Loss') plt.title('MLP Training Loss Curve') plt.grid(True) plt.show() # ======================== 6. 简单验证 ======================== model_class.eval() # 切换到评估模式 with torch.no_grad(): # 禁用梯度计算（加速） test_x = torch.randn(10, input_dim, dtype=torch.float32).to(device) pred = model_class(test_x) pred_label = torch.argmax(pred, dim=1) # 取概率最大的类别 print("\n测试样本预测结果（类别索引）：", pred_label.cpu().numpy())

代码关键部分解释

环境配置：
- 自动检测 CUDA，优先使用 GPU 加速（对应图片中nvidia-smi和 CUDA 验证）；
- 若没有 GPU，自动降级到 CPU 运行，不影响核心功能。
数据类型严格匹配：
- 分类任务标签y_classification用torch.long（LongTensor），解决交叉熵损失的类型报错问题；
- 回归任务标签y_regression用torch.float32（FloatTensor），符合回归任务的数值类型要求。
MLP 模型结构：
- 严格按照图片要求，设置2 层隐藏层（fc1、fc2），神经元数量默认 64/32（后续可调参）；
- 激活函数用 ReLU（深度学习常用），输出层根据任务类型适配（分类不加激活，回归直接输出）。
训练五步法：
- 前向传播 → 计算损失 → 清空梯度 → 反向传播 → 更新参数，完全匹配 PyTorch 标准训练流程。
可视化：
- 绘制 Loss 曲线，直观监控模型收敛情况（对应图片中 “可视化” 要求）。