当前位置：首页 > news >正文

别再死记硬背了！用PyTorch动手画一遍，彻底搞懂CNN和MLP到底啥关系

news 2026/6/8 8:15:32

用PyTorch拆解神经网络：可视化理解CNN与MLP的本质关联

在深度学习的世界里，卷积神经网络(CNN)和多层感知机(MLP)常被当作两种截然不同的架构来讨论。但当你真正动手用代码构建它们时，会发现一个令人惊讶的事实：MLP其实是CNN在特定参数配置下的特殊形态。本文将带你用PyTorch从零构建这两种网络，通过张量形状变化和计算图可视化，像拆解乐高积木一样揭示它们的本质联系。

1. 准备实验环境与基础概念

在开始之前，我们需要确保环境配置正确。推荐使用Google Colab或本地Jupyter Notebook环境，它们能完美支持我们即将进行的交互式实验。以下是必要的安装和导入：

import torch import torch.nn as nn import numpy as np import matplotlib.pyplot as plt from torchviz import make_dot

张量形状是我们理解两者关系的关键线索。在PyTorch中，每个张量都有明确的形状属性，通过.shape可以查看。例如，一个3×3的RGB图像在PyTorch中表示为(3, 3, 3)（通道优先格式）或(3, 3, 3)（批次优先格式）。

为什么从张量形状入手？因为神经网络本质上是一系列张量运算的堆叠，形状变化直接反映了信息流动的方式。CNN和MLP的区别，很大程度上体现在它们如何处理输入张量的空间维度。

2. 构建极简MLP模型

让我们先构建一个最简单的MLP来处理3×3的图像。假设我们使用全连接层将9个输入特征(3×3展开)映射到3个输出特征：

class SimpleMLP(nn.Module): def __init__(self): super().__init__() self.fc = nn.Linear(9, 3) # 9输入, 3输出 def forward(self, x): batch_size = x.shape[0] x = x.view(batch_size, -1) # 展平图像 return self.fc(x)

测试这个MLP：

mlp = SimpleMLP() dummy_input = torch.randn(1, 3, 3) # 批次大小为1的3×3图像 print("输入形状:", dummy_input.shape) output = mlp(dummy_input) print("输出形状:", output.shape)

你会看到形状变化：(1, 3, 3)→(1, 3)。这就是典型的MLP行为——它完全忽略了输入的空间结构，将所有像素平等对待。

3. 构建特殊配置的CNN

现在，我们构建一个CNN，但给它一个特殊的配置——使用与输入图像相同大小的卷积核(3×3)：

class SpecialCNN(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(1, 3, kernel_size=3, stride=1, padding=0) def forward(self, x): return self.conv(x)

测试这个CNN：

cnn = SpecialCNN() dummy_input = torch.randn(1, 1, 3, 3) # 批次1, 通道1, 高3, 宽3 print("CNN输入形状:", dummy_input.shape) output = cnn(dummy_input) print("CNN输出形状:", output.shape)

有趣的事情发生了——输出形状也是(1, 3, 1, 1)！如果我们去掉不必要的维度，这与MLP的输出(1, 3)本质上是相同的。

4. 可视化计算图与权重对比

为了更直观地理解，我们可以使用torchviz可视化计算图：

# 可视化MLP mlp_output = mlp(dummy_input.squeeze(1)) make_dot(mlp_output, params=dict(mlp.named_parameters())) # 可视化CNN cnn_output = cnn(dummy_input) make_dot(cnn_output, params=dict(cnn.named_parameters()))

观察两个计算图，你会发现它们的计算模式惊人地相似。实际上，当CNN的卷积核大小等于输入大小时：

每个输出特征都是所有输入像素的加权和
卷积核的权重矩阵本质上等同于MLP的全连接权重矩阵
偏置项的作用也完全相同

我们可以进一步打印两者的权重来验证：

print("MLP权重形状:", mlp.fc.weight.shape) print("CNN权重形状:", cnn.conv.weight.shape)

虽然形状看起来不同(MLP是(3,9)，CNN是(3,1,3,3))，但如果我们适当重塑这些张量，会发现它们实际上是相同运算的不同表示形式。

5. 1×1卷积的MLP本质

另一个有趣的视角是1×1卷积。让我们构建一个使用1×1卷积核的CNN：

class Conv1x1(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(3, 6, kernel_size=1) # 3输入通道,6输出通道 def forward(self, x): return self.conv(x)

测试这个网络：

conv1x1 = Conv1x1() dummy_input = torch.randn(1, 3, 32, 32) # 任意空间尺寸 output = conv1x1(dummy_input) print("输入形状:", dummy_input.shape) print("输出形状:", output.shape)

你会发现空间尺寸保持不变(32×32)，只有通道数变化。这正是1×1卷积的特性——它在每个空间位置独立地执行一个全连接运算，相当于在通道维度上的MLP。

6. 为什么CNN更适合图像数据

既然MLP是CNN的特例，为什么我们不直接用MLP处理所有问题？关键在于参数效率和平移不变性：

特性	MLP	CNN
参数数量	随输入尺寸平方增长	与卷积核大小相关，独立于输入
空间信息处理	完全破坏	局部保留
平移不变性	无	内置
适合的数据类型	向量数据(如表格数据)	网格结构数据(如图像)

当处理高分辨率图像时，MLP的参数数量会变得极其庞大。例如，对于1000×1000的RGB图像：

MLP需要约30亿参数(3M输入×1K输出)
典型的CNN可能只需几百万参数

此外，CNN的局部连接和参数共享特性使其能够自动学习对平移、旋转等变换具有鲁棒性的特征，这是MLP难以实现的。

7. 实践中的灵活转换

理解这种关系在实际中有何用处？它让我们能在两种架构间灵活转换：

将MLP转换为CNN：当你的MLP输入是图像时，考虑用CNN替代

# 不好的实践 mlp = nn.Sequential( nn.Linear(3072, 1024), # 32x32x3=3072 nn.ReLU(), nn.Linear(1024, 10) ) # 更好的实践 cnn = nn.Sequential( nn.Conv2d(3, 32, 3), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(32, 64, 3), nn.ReLU(), nn.MaxPool2d(2), nn.Flatten(), nn.Linear(64*6*6, 10) )

在CNN中使用MLP概念：1×1卷积就是典型例子

# 使用1x1卷积实现通道间的全连接 bottleneck = nn.Sequential( nn.Conv2d(256, 64, 1), # 降维 nn.ReLU(), nn.Conv2d(64, 256, 1) # 升维 )

在ResNet、Inception等现代架构中，这种混合使用非常普遍。理解它们的本质联系，能帮助你更灵活地设计和调整网络结构。

查看全文

http://www.jsqmd.com/news/973378/

3分钟学会：百度网盘直链解析终极教程，告别限速烦恼！

JetBrains dotPeek 2024.2 保姆级安装与反编译实战：从DLL到C#源码的完整还原

前端项目：SpeakMentor AI 场景化英语口语陪练助手开发复盘

保姆级避坑指南：SAP SPRO中给公司代码分配采购组织，新手最容易搞混的几点

Nsight System + Nsight Compute 组合拳：从宏观Timeline到微观Counter的CUDA应用全链路性能分析实战

深入涂鸦Wi-Fi模组协议栈：手把手解析MCU与模组间的数据帧（含心跳、配网、OTA全流程）

XUnity.AutoTranslator字体管理实战指南：如何解决Unity游戏多语言显示难题

别再只用System.out.printf了！Java保留小数点的3种方法实战对比（含DecimalFormat避坑）

淮北矿业股息率怎么这么高，未来预期产能能翻倍吗？

别再乱调学习率了！用PyTorch的CosineAnnealingLR和WarmRestarts，让你的模型训练又快又稳（附完整代码）

Qt 高级开发 028：以代码为笔，以界面为卷

别再只会升级GCC了！遇到‘unrecognized command line option‘的三种排查思路与降级方案

多维聚合实战：从SQL GROUP BY到OLAP立方体的工程跃迁

2026 安徽淮北市｜本地人必选旧房改造・墙面刷新・局部装修 3 家正规企业精选 + 避坑攻略 - 本地便民网

MounRiver工程配置避坑指南：从零配置沁恒MCU头文件、库路径与Linker Script

Android启动安全实战：手把手教你用avbtool给dtbo.img镜像签名（附源码分析）

告别环境配置噩梦：用Docker镜像5分钟搞定OpenFPGA开发环境（Ubuntu 20.04实测）

Mythos能力解析：跨步状态锚定与长程推理一致性技术

NTC温度采集全套开发资源：单片机驱动+查表工具+上位机显示+硬件设计文件

PSCAD仿真效率提升技巧：从元件布局、参数复用到底层波形导出全流程优化

从需求到代码：手把手教你用PlantUML插件，在IDEA里自动生成时序图和类图

IT项目管理的难点在哪里？

创维E900V21C救砖记：从TTL跑码异常到飞线修复，手把手教你排查硬件短路

寄件不用跑腿！手机一键下单，大小件全部上门取件 - 时讯资讯

Quartus 18.1 + DE10-Lite开发板：保姆级图文教程，带你跑通第一个NIOS II程序

OBD诊断协议揭秘：ISO15031 $02服务如何让ECU‘冻结’故障瞬间（附PID速查表）

tidevice不只是安装启动：这5个隐藏功能让iOS测试效率翻倍

CPU核心没跑满？7大真实瓶颈与实操优化指南

别再死记硬背UML图了！用这3个真实项目案例，带你搞懂用例图、活动图与类图怎么画

告别裸机：在STM32CubeIDE中为STM32H7集成SOEM 1.4.0的完整配置流程