当前位置: 首页 > news >正文

DAY49 预训练模型

目录

1. 预训练的概念 (Concept of Pre-training)

2. 常见的分类预训练模型 (Common Models)

3. 图像预训练模型的发展史 (Evolution History)

4. 预训练的策略 (Pre-training Strategies)

5. 代码实战:ResNet18 适配 CIFAR-10



1. 预训练的概念 (Concept of Pre-training)

  • 核心定义:预训练是指利用在类似任务或大规模数据集上训练好的模型参数来初始化自己的模型,而不是从零开始(随机初始化)。这种思想被称为迁移学习

  • 解决的问题

    1. 收敛速度:好的初始值能大幅减少训练轮数。

    2. 避免局部最优:防止模型在训练初期陷入较差的局部最优解。

  • 任务划分:预训练的过程称为上游任务,而在特定数据集上调整参数的过程称为微调(Fine-tuning)下游任务

  • 数据要求:通常要求在大规模数据集(如 ImageNet)上训练,因为只有海量数据才能支撑模型学习到通用的视觉特征。

2. 常见的分类预训练模型 (Common Models)

根据 notebook 的整理,主流预训练模型分为三类:

  • CNN架构

    • VGGNet:结构简洁,由纯卷积堆叠而成,参数量巨大。

    • ResNet:引入残差连接解决深度网络中的梯度消失问题,是目前最常用的基准模型。

    • MobileNet:轻量级设计,采用深度可分离卷积,适合移动端部署。

    • EfficientNet:通过复合缩放自动寻找最优配置,准确率领先。

  • Transformer类:如ViTSwin Transformer,在处理大尺寸图像时表现优异,通常需要对图像进行上采样或调整 Patch 大小。

  • 自监督模型:如MoCo v3BEiT,无需人工标注,适合数据稀缺的场景。

3. 图像预训练模型的发展史 (Evolution History)

  • 早期探索(1990s):以LeNet-5为代表,验证了 CNN 的可行性。

  • 深度学习复兴(2012-2015)AlexNet开启了 GPU 训练时代;VGG加深了网络;GoogLeNet引入了 Inception 多分支结构。

  • 超深网络时代(2015年后)ResNet解决了网络退化问题,使层数突破 100 层;后续模型转向效率优化(MobileNet)、特征复用(DenseNet)和自动化设计(EfficientNet)。

4. 预训练的策略 (Pre-training Strategies)

实现迁移学习通常需要遵循以下三个要点:

  1. 加载模型与权重:直接复用固定的模型结构及其训练好的参数。

  2. 适配输入与输出

    • Resize:调整图像尺寸以适配模型要求。

    • 修改 Head:将最后的全连接层(FC)修改为符合下游任务类别数(如 CIFAR-10 的 10 类)。

  3. 阶段式训练

    • 冻结阶段:初期先锁住Backbone(骨干网络),只训练新修改的 Head,防止随机初始化的权重破坏预训练的特征提取能力。

    • 解冻阶段:训练 5-10 个 epoch 后解冻所有层,进行全局微调。

5. 代码实战:ResNet18 适配 CIFAR-10

Notebook 通过 PyTorch 展示了完整的实战流程:

  • 模型构建:使用models.resnet18(pretrained=True)加载权重,并将model.fc修改为输出 10 维。

  • 冻结控制:通过遍历model.named_parameters(),将除 'fc' 层外的参数requires_grad设为False

  • 训练调度:定义了train_with_freeze_schedule函数,实现在freeze_epochs之后自动解冻参数并降低学习率进行精细调优。

  • 最终效果:通过预训练模型,在 CIFAR-10 上仅微调 40 轮即可达到约86.30%的准确率,显著优于非预训练模型。


http://www.jsqmd.com/news/221501/

相关文章:

  • 午休课桌椅新国标环境下,校金刚的实施方案更有优势
  • ModbusRTU从机响应流程实战案例:操作指南详解
  • 深度剖析DRC检查流程:适合初学者的结构化学习路径
  • 手残党也能玩转的S7-200 SMART 485通讯指南
  • 西门子官方精美触摸屏+WINCC程序模板:炫酷扁平式动画、自动生成二维码,实力凸显无线面板和人机界面
  • 超300家企业实测岗位外包口碑品牌榜前10名排名整理!
  • 强烈安利8个AI论文平台,自考学生轻松搞定论文格式规范!
  • 电动汽车充电站有序充放电调度的分散式优化:从理论到实践
  • 权威加冕!搭贝强势入驻钉钉严选,实力与服务获官方高度认可!
  • React Native快速上手:用StyleSheet创建美观界面
  • RTOS环境下ISR编写注意事项全面讲解
  • 基于SpringBoot的零工市场服务系统(源码+lw+部署文档+讲解等)
  • 使用Screen to Gif制作教学视频的完整指南
  • 比亚迪逆风突围:2025年销量飙升62%,海狮7热销单月冲破3千!
  • 全加器P管N管配比原理:从零实现稳定电压传输
  • 手把手教你掌握时序逻辑电路基本原理
  • 高频信号处理篇---单差分对VS双差分对
  • 最近在车间调试西门子S7-1200控制四轴伺服的设备,顺手整理了一套实战程序。这套程序里藏着伺服控制的十八般武艺,今天咱们边拆边聊
  • 在线仿真工具验证数字电路时序的一文说清
  • 电商巨头下场造车:阿里与山子高科的“V17”实验!
  • Halcon联合C#贴片机程序:四轴运动控制,使用雷赛驱动卡,程序带注释,直接使用减少开发周期
  • stm32Hal库移植freemodbus,modbusRTU功能实现
  • 电子电路中的负反馈机制:全面讲解与应用
  • 三菱Q系列PLC ,QD77MS16走总线控制伺服项目,实际应用的 程序结构清晰明了,通俗易懂...
  • 2026开战:AI眼镜“百镜大战”打响,国内厂商领衔掀起“神仙打架”!
  • H5U的一个比较完整的程序框架. PLC还是性价比挺高,特别是对于伺服的总线。 主打的伺服控制...
  • 【Linux】PVE系统创建规范的VM模版
  • 吐血推荐10个一键生成论文工具,自考学生轻松搞定毕业论文!
  • 基于SpringBoot的旅游景点推荐系统(源码+lw+部署文档+讲解等)
  • 打开COMSOL看到电磁波模块就手痒?今天拿介质圆柱散射练练手。先搞个半径5μm的氧化铝圆柱(ε_r=9.8),扔到532nm激光里会发生啥?咱们边操作边唠嗑