当前位置：首页 > news >正文

VGG（VGG16/VGG19）

news 2026/7/20 1:27:18

VGG 网络是由牛津大学视觉几何组（Visual Geometry Group）提出的深度卷积神经网络模型。其主要贡献在于证明了增加网络深度可以显著提升图像识别任务的性能。VGG16 和 VGG19 是其中最著名的两个版本，分别包含 16 层和 19 层可训练权重层（不含池化层和激活层）。

论文地址：Very Deep Convolutional Networks for Large-Scale Image RecognitionVery Deep Convolutional Networks for Large-Scale Image Recognition

核心特点

1.小卷积核：全部使用卷积核（步长1，填充1），替代更大的卷积核。两个卷积层的感受野等于一个卷积层，但参数更少（）。

2.深度堆叠：通过连续堆叠卷积层（如 2-4 层）后再接池化层，逐步压缩空间维度。

3.全连接层：末端使用 2-3 个全连接层（4096维）和 Softmax 分类器。

1. VGG16 结构

VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。

简单来说，在VGG中，使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替5*5卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度，在一定程度上提升了神经网络的效果。

输入：（RGB图像）

卷积阶段：Conv3-64 → Conv3-64 → MaxPool2 → Conv3-128 → Conv3-128 → MaxPool2 → Conv3-256 → Conv3-256 → Conv3-256 → MaxPool2 → Conv3-512 → Conv3-512 → Conv3-512 → MaxPool2 → Conv3-512 → Conv3-512 → Conv3-512 → MaxPool2

全连接阶段：FC-4096 → FC-4096 → FC-1000（ImageNet类别数）

总层数：13卷积层 + 3全连接层 = 16层

VGG16包含了16个隐藏层（13个卷积层和3个全连接层）。划分了5个block：红色：下采样（Max Pooling）；白色：卷积层+ReLU；蓝色：全连接+ReLU；神经网络参数传递从左向右；参数传递过程中，通道数越来越深，尺寸越来越小；从7x7x512下采样后，参数被拉平为1x1的长向量，进入全连接层。

2.VGG19 结构

在 VGG16 的基础上增加 3 个卷积层：

额外卷积层：Conv3-64 → Conv3-64 → MaxPool2 → Conv3-128 → Conv3-128 → MaxPool2 → Conv3-256 → Conv3-256 → Conv3-256 → MaxPool2 → Conv3-512 → Conv3-512 → Conv3-512 → MaxPool2 → Conv3-512 → Conv3-512 → Conv3-512 → MaxPool2 → Conv3-512 → Conv3-512 → Conv3-512 → Conv3-512 → MaxPool2
（对比 VGG16 多出 3 个 Conv3-512 层）

总层数：16卷积层 + 3全连接层 = 19层

3.性能对比

指标	VGG16	VGG19
Top-1 错误率	~27%	~26%
参数量	138M	144M
计算量	15.5 GFLOPs	19.6 GFLOPs

3.VGGBlock结构示例

import torch.nn as nn # VGG 网络核心基础模块 VGGBlock class VGGBlock(nn.Module): # num_convs：这个模块里堆叠多少个卷积层 def __init__(self, in_channels, out_channels, num_convs): super().__init__() layers = [] for _ in range(num_convs): layers += [ # # 3×3卷积 + 填充1 → 卷积后图像尺寸不变 nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1), nn.ReLU(inplace=True) ] in_channels = out_channels self.block = nn.Sequential(*layers) def forward(self, x): return self.block(x) # VGG16 配置 [2, 2, 3, 3, 3] 卷积层数 # VGG19 配置 [2, 2, 4, 4, 4] 卷积层数

查看全文

http://www.jsqmd.com/news/858607/