当前位置：首页 > news >正文

从VGG、ResNet到DenseNet：在FER2013上跑个分，聊聊我为什么最终选了它

news 2026/5/7 1:11:28

从VGG到DenseNet：FER2013表情识别实战中的模型选型思考

当面对48×48像素的灰度人脸表情图片时，选择哪个深度学习架构才能达到最佳识别效果？这个问题困扰了我整整两周。FER2013数据集虽然规模不大，但包含了从愤怒到惊喜的七种微妙表情变化，每张图片都承载着丰富的情感信息。作为计算机视觉领域经典的benchmark数据集，它独特的挑战性吸引了无数研究者——人类标注者在这个数据集上的识别准确率也仅有65%-70%，这让我对模型的选择更加谨慎。

1. 实验环境与基准测试

工欲善其事，必先利其器。在开始模型对比前，我搭建了统一的实验环境以确保公平性：

import torch import torchvision from torch import nn, optim # 硬件配置 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") print(f"Using {device} device") # 数据加载 transform = torchvision.transforms.Compose([ torchvision.transforms.Grayscale(), torchvision.transforms.RandomHorizontalFlip(), torchvision.transforms.ToTensor(), torchvision.transforms.Normalize(mean=[0.5], std=[0.5]) ])

关键环境参数：

PyTorch 1.12 + CUDA 11.6
NVIDIA RTX 3090 (24GB显存)
批量大小统一设置为64
初始学习率0.01，余弦退火调度
交叉熵损失函数 + SGD优化器(动量0.9)

1.1 数据特性与挑战

FER2013数据集包含35,887张48×48像素的灰度图像，分为7类表情。经过分析，我发现几个显著特点：

特性	影响	应对策略
小尺寸图像	限制模型感受野设计	避免过大卷积核
灰度单通道	缺乏色彩信息	专注纹理特征提取
标注噪声	约5-8%的错误标签	标签平滑技术
类别不平衡	厌恶类样本仅占2.3%	加权采样

# 类别分布可视化 class_counts = [4953, 547, 5121, 8989, 6077, 4002, 6198] plt.bar(['Angry','Disgust','Fear','Happy','Sad','Surprise','Neutral'], class_counts) plt.title('FER2013 Class Distribution')

2. VGG19：传统架构的基线表现

作为对比基准，我首先实现了标准的VGG19网络。这个曾经在ImageNet竞赛中表现优异的架构，采用连续的3×3卷积核堆叠：

class VGG19(nn.Module): def __init__(self, num_classes=7): super().__init__() self.features = nn.Sequential( nn.Conv2d(1, 64, kernel_size=3, padding=1), nn.ReLU(inplace=True), nn.Conv2d(64, 64, kernel_size=3, padding=1), nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=2, stride=2), # ... 中间层省略 ... nn.Conv2d(512, 512, kernel_size=3, padding=1), nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=2, stride=2) ) self.classifier = nn.Sequential( nn.Linear(512 * 1 * 1, 4096), nn.ReLU(inplace=True), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(inplace=True), nn.Dropout(), nn.Linear(4096, num_classes) )

训练观察：

验证准确率稳定在63.2%
训练时间较长（每个epoch约85秒）
显存占用高达9.8GB
容易在愤怒和悲伤类间混淆

注意：VGG的全连接层参数量占比超过80%，这在小型数据集上极易导致过拟合。我尝试冻结部分卷积层，但效果改善有限。

3. ResNet系列：残差连接的突破

当转向ResNet架构时，我明显感受到了残差连接带来的变化。从ResNet-18到ResNet-34，我进行了系统对比：

3.1 ResNet-18的惊艳表现

class BasicBlock(nn.Module): expansion = 1 def __init__(self, in_planes, planes, stride=1): super().__init__() self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(planes) self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(planes) self.shortcut = nn.Sequential() if stride != 1 or in_planes != self.expansion*planes: self.shortcut = nn.Sequential( nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(self.expansion*planes) ) def forward(self, x): out = F.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out += self.shortcut(x) out = F.relu(out) return out

性能对比：

指标	VGG19	ResNet-18
准确率	63.2%	68.7%
训练时间/epoch	85s	62s
参数量	143M	11.7M
显存占用	9.8GB	3.2GB

3.2 深度增加带来的变化

当将网络加深到ResNet-34时，出现了一些有趣现象：

验证准确率提升至70.1%
训练初期收敛更快
但对学习率更敏感
在epoch 50左右出现平台期

我通过热力图分析发现，ResNet的注意力机制能更好捕捉眉眼区域的细微变化，这对区分愤怒和厌恶特别有效。

4. DenseNet-121：特征复用的艺术

DenseNet的密集连接机制让我眼前一亮。其核心思想是让每一层都直接访问前面所有层的特征图：

class DenseLayer(nn.Module): def __init__(self, in_channels, growth_rate): super().__init__() self.bn1 = nn.BatchNorm2d(in_channels) self.conv1 = nn.Conv2d(in_channels, 4*growth_rate, kernel_size=1, bias=False) self.bn2 = nn.BatchNorm2d(4*growth_rate) self.conv2 = nn.Conv2d(4*growth_rate, growth_rate, kernel_size=3, padding=1, bias=False) def forward(self, x): out = self.conv1(F.relu(self.bn1(x))) out = self.conv2(F.relu(self.bn2(out))) out = torch.cat([out, x], 1) return out

关键优势：

参数效率极高（仅8.1M参数）
验证准确率达到73.5%
训练过程更稳定
对数据增强更鲁棒

技术细节：DenseNet的过渡层（Transition Layer）通过1×1卷积和平均池化有效控制了特征图尺寸增长，这对小图像处理尤为重要。

5. 实战建议与调优策略

经过数十次实验迭代，我总结出针对FER2013的最佳实践：

1. 数据增强组合：

train_transform = torchvision.transforms.Compose([ torchvision.transforms.RandomApply([ torchvision.transforms.RandomAffine(10, translate=(0.1,0.1)), torchvision.transforms.ColorJitter(brightness=0.3, contrast=0.3) ], p=0.5), torchvision.transforms.RandomHorizontalFlip(), torchvision.transforms.ToTensor(), torchvision.transforms.Normalize(mean=[0.5], std=[0.5]), torchvision.transforms.RandomErasing(p=0.2) ])

2. 学习率调度：

scheduler = torch.optim.lr_scheduler.OneCycleLR( optimizer, max_lr=0.01, steps_per_epoch=len(train_loader), epochs=100 )

3. 模型融合技巧：

使用DenseNet-121作为主干网络
在最后全连接层前添加SE注意力模块
采用标签平滑(Label Smoothing ε=0.1)

最终，我的最佳单模型在测试集上达到了75.2%的准确率，超过了文献报道的大多数结果。这个过程中最让我惊讶的是，并非网络越深效果越好——ResNet-34的表现就优于更深的ResNet-50，这说明针对特定任务需要找到深度和宽度的最佳平衡点。

查看全文

http://www.jsqmd.com/news/767023/

【Docker 27低代码容器化实战手册】：27个生产级部署技巧，零基础3天上线首个低代码应用

【Docker监控黄金法则】：20年运维专家亲授7大必监指标与实时告警配置实战

动态容量MoE框架实现语音与音乐统一生成

如何快速连接魔兽世界自定义服务器：Arctium启动器完全指南

毕业季不熬夜：用百考通AI轻松搞定本科毕业论文

仅花几十元用一年｜2026 实测智在记录 AI 会议纪要，每月省 20 + 小时，年省上千块

从‘拖拉机油门’到平稳控制：在Python/Matlab里仿真PID积分饱和与抗饱和设计

TInyML基础：“不用死记公式！一文讲透全连接层：它到底把神经网络‘连’成了什么样？”

农业物联网插件安全审计必做清单，VSCode 2026新增SAST扫描模块深度解析（仅限前500名下载CVE-2026-Agri补丁）

LeetCode 基本计算器题解

如何实现Cursor Pro永久免费使用：完整技术指南

凿岩机械臂力传感与运动控制轨迹规划【附代码】

MCP协议：构建AI智能体与外部工具的安全标准化桥梁

缠论可视化终极指南：如何在通达信中快速部署免费分析插件

2026年免费查论文AI率3个正规渠道，附降到15%以下完整教程

视觉语言模型鲁棒性提升：ArtiAgent伪影生成技术解析

如何高效使用PE-bear进行PE文件逆向分析：实用指南

第31集：大模型容错架构！当 LLM 超时/幻觉/被限流时的降级与兜底方案

网盘直链下载终极解决方案：全平台免费高速下载的完整指南

无人热干面餐厅服务机器人抓取策略深度学习【附代码】

5分钟搭建你的私人云游戏服务器：Sunshine游戏串流终极指南

3分钟搞定视频字幕：VideoSrt开源工具完全指南

航测新手避坑指南：用Metashape做DOM时，建筑物拉花、扭曲怎么解决？

React 18\+Next\.js 14实战：服务端渲染与跨端开发全指南

DOM 节点信息

5分钟掌握智能订阅工具：RSSHub Radar浏览器扩展使用指南

娱乐圈天降紫微星传承帝格，海棠山铁哥比肩李世民平地起势

10分钟快速搭建专业级AD8232心电监测系统：开源方案让心电图监测触手可及

别再手动调参了！用BrainGB一站式搞定脑网络GNN基准测试（附实战代码）

避开这些坑！GD32E230 ADC+DMA多通道配置的常见误区与调试心得