当前位置: 首页 > news >正文

学习 深度学习7-VGGNet总结

VGGNet是由牛津大学视觉几何组(Visual Geometry Group)于2014年提出的经典卷积神经网络模型。相较于此前占据主导地位的AlexNet,VGGNet通过统一使用小尺寸卷积核模块化的堆叠思想,显著加深了网络结构,参数总计约1.38亿

一、 模型整体架构

VGGNet共包含六种不同的网络架构(A至E),分别对应不同的深度。所有模型均由六个大的特征块(Block)组成,块与块之间通过最大池化层(MaxPooling)进行空间维度的下采样。

VGGNet摒弃了AlexNet中使用的11x115x5大卷积核,全面采用3x3的卷积核。大幅减少了网络参数并在每层之间插入了额外的ReLU非线性激活函数,使得模型决策函数具有更强的判别能力。

二、 VGG-16(D类)网络结构讲解

D类架构是VGGNet中最经典、应用最广泛的变体,其名称中的“16”代表该网络包含16个具有可训练权重的层(13个卷积层 + 3个全连接层)。模型输入图像尺寸固定为224 x 224 x 3(RGB三通道)。

块1

结构序列:卷积 -> ReLU -> 卷积 -> ReLU -> 最大池化

卷积层:包含2个卷积层,每层采用64个尺寸为3x3x3的卷积核。步幅(Stride)设为1,填充(Padding)设为1(保持尺寸不变)。输出特征图尺寸为 224x224x64。

激活函数:每层卷积后接入ReLU函数。

池化层:采用 2x2 的窗口,步幅设为2,填充为0。此操作将特征图空间尺寸减半,输出尺寸为112x112x64

块2:

结构序列:卷积 -> ReLU -> 卷积 -> ReLU -> 最大池化

卷积层:包含2个卷积层,每层卷积核数量扩充至128个,尺寸仍为3x3。保持步幅1和填充1,输出尺寸为 112x112x128。

池化层:参数同块1(2x2,步幅2),输出尺寸为56x56x128

块3:

结构序列:卷积 -> ReLU -> 卷积 -> ReLU -> 卷积 -> ReLU -> 最大池化

卷积层:包含3个卷积层,每层卷积核数量增加至256个,尺寸3x3,步幅1,填充1。输出尺寸为 56x56x256。

池化层:2x2窗口,步幅2,输出尺寸为28x28x256

块4:

结构序列:卷积 -> ReLU -> 卷积 -> ReLU -> 卷积 -> ReLU -> 最大池化

卷积层:包含3个卷积层,卷积核数量提升至512个,尺寸3x3。步幅1,填充1,输出尺寸为 28x28x512。

池化层:2x2窗口,步幅2,输出尺寸14x14x512

块5:

结构序列:卷积 -> ReLU -> 卷积 -> ReLU -> 卷积 -> ReLU -> 最大池化

卷积层:包含3个卷积层,每层保持512个3x3卷积核。步幅1,填充1,输出尺寸为 14x14x512。

池化层:2x2窗口,步幅2,输出尺寸为7x7x512

块6:(全连接层)

结构序列:全连接 -> ReLU -> Dropout -> 全连接 -> ReLU -> Dropout -> 全连接 -> Softmax

第一层:展平特征图接入4096个神经元的全连接层,后接ReLU激活函数及Dropout(丢弃率0.5)以防止过拟合。

第二层:同样为4096个神经元,后接ReLU与Dropout。

第三层(输出层):包含1000个神经元,对应ImageNet数据集的1000个类别,接入Softmax函数输出最终分类概率。

VGGNet证明了增加网络深度可以有效提升模型性能

http://www.jsqmd.com/news/1109768/

相关文章:

  • AI赋能自动化测试:从脚本生成到智能体探索的实战指南
  • ICM-42688-P与STM32F071VB在工业运动感知中的应用
  • 商场照明厂家技术实力评估:光效、显指、智能控制
  • N皇后遗传算法实战:Python手写GA核心代码与调参指南
  • 2026 年五大优秀 CRM 产品深度解析
  • 科研绘图不用啃软件!okbiye AI 科研绘图网页端一体化工作台实测解析
  • ROS2中joint_states与TF协同原理及实操指南
  • STM32与13DOF传感器融合的定位导航系统开发
  • 嵌入式高精度电压监测系统设计与实现
  • 三轴运动追踪:WSEN-ISDS与PIC18微控制器的低成本方案
  • 低代码开发平台能给企业数字化带来什么价值,为什么要用低代码
  • 《剑与翼》正版安装渠道指引,古战场打金干货,回味当年纯粹冒险初心!
  • 6DoF IMU传感器与PIC18微控制器的运动追踪方案
  • KMX63与PIC18F2515实现运动感知人机交互
  • 基于FPGA使用串口发送B码时间信息-强化篇
  • 威锋VL211芯片详解(VL211-Q4)USB3.2 Gen1 Hub 原理、参数、选型对比与调试避坑
  • 《传奇 3 光通版》官方下载入口:沃玛圣火长燃,一寻往昔并肩人
  • 6DoF姿态解算:IIM-42652 IMU与PIC18F26K80的实战应用
  • 终极指南:如何高效解决ComfyUI IPAdapter人脸识别InsightFace安装问题
  • Unlock-Music完全指南:3分钟解锁加密音乐,实现跨平台自由播放的终极方案
  • NLP工具选型实战指南:NLTK、spaCy、CoreNLP、OpenNLP与Transformers深度对比
  • IMU传感器与6DoF运动追踪技术实践
  • AI+MCP协议:重塑自动化测试的五大工具与落地实践
  • 论文查新证明怎么开具?所需材料与委托流程
  • 基于ICM-42605和PIC32MZ的6DOF运动追踪方案设计与实现
  • 13DOF传感器与PIC32MZ微控制器的嵌入式导航系统设计
  • 收到面试通过的口头承诺却迟迟不发录用信?留学生自查跟进策略「蒸汽求职分享」
  • 深度学习全栈认知地图:从问题定义到边缘部署的工业级实践
  • 异种金属焊接:钢与铝连接的挑战与解决方案
  • 一件模具为什么要做三维扫描检测