当前位置: 首页 > news >正文

day49

@浙大疏锦行

1. 预训练的概念
核心定义:先在大规模通用数据集上训练一个基础模型(学习通用特征,如边缘、纹理、形状),再将这个模型的参数迁移到目标任务中,进行微调(Fine-tuning)或直接使用。
本质:利用 “通用数据的特征迁移”,解决目标任务数据量少、训练成本高的问题,是迁移学习的核心方式之一。
作用:大幅降低目标任务的训练时间;提升小数据集任务的模型性能;避免从零训练模型的过拟合风险。

2.经典的预训练模型

3.预训练的策略
(1)冻结预训练层(仅微调头部):
操作:冻结预训练模型的大部分层(仅保留参数不更新),只修改模型的 “分类头”,仅训练分类头。
适用场景:目标任务数据量少、预训练模型特征足够通用。
(2)全量微调(Fine-tuning):
操作:解冻预训练模型的部分 / 全部层,让所有层的参数随目标任务更新。
适用场景:目标任务数据量充足,需要模型适配任务的专属特征。
(3)特征提取(Feature Extraction):
操作:直接用预训练模型的输出作为目标任务的特征,不更新预训练模型参数,仅训练新的分类器。
适用场景:目标任务与预训练任务高度相似,预训练特征可直接复用。

用预训练 ResNet18 完成 CIFAR10 分类

在CIFAR10 对比不同预训练模型(以 MobileNetV2 为例)

http://www.jsqmd.com/news/223162/

相关文章:

  • Qwen2.5-7B推理成本太高?按需GPU部署节省60%费用
  • Qwen2.5-7B vs Yi-34B推理速度对比:GPU利用率实测
  • Qwen2.5-7B部署优化:容器资源限制与性能平衡
  • Qwen2.5-7B数学能力提升:解题步骤生成实战教程
  • lvgl移植基础篇:显示屏与触摸屏配置手把手教学
  • Qwen2.5-7B镜像使用指南:快速获取API密钥实战教程
  • Qwen2.5-7B如何做角色扮演?条件设置部署实战教学
  • Qwen2.5-7B推理延迟高?KV Cache优化部署实战解决方案
  • 快速理解数码管段选与位选信号布线方法
  • Qwen2.5-7B与Mixtral对比:稀疏模型vs密集模型部署效率分析
  • 多级放大电路耦合方式详解:电容与直接耦合对比
  • 基于GA-HIDMSPSO算法优化BP神经网络+NSGAII多目标优化算法工艺参数优化、工程设计优化(三目标优化案例)
  • 全面讲解I2S协议工作原理:帧同步与位时钟关系解析
  • SerialPort数据帧解析:图解说明工业报文结构
  • Qwen2.5-7B游戏NPC对话系统:角色扮演部署实战教程
  • Qwen2.5-7B医疗咨询:症状分析与建议生成
  • Qwen2.5-7B物流行业案例:运单信息提取系统部署实操
  • Qwen2.5-7B响应不准确?微调数据集选择与部署策略
  • Qwen2.5-7B数学解题:复杂公式推导实战案例
  • 为什么Qwen2.5-7B网页推理失败?GPU适配问题详解与解决步骤
  • Qwen2.5-7B多语言支持:29种语言处理案例解析
  • Qwen2.5-7B快速上手指南:新手开发者部署入门必看
  • Qwen2.5-7B保姆级教程:从零部署到网页推理的完整指南
  • Qwen2.5-7B与DeepSeek-V3对比评测:编程任务执行效率实战分析
  • Qwen2.5-7B金融领域应用:智能投顾系统搭建指南
  • Driver Store Explorer通俗解释:人人都能懂的维护工具
  • QTabWidget高亮当前活动页:通俗解释实现逻辑
  • 人工智能之数学基础:大数定律之切比雪夫不等式
  • Qwen2.5-7B俄语NLP:斯拉夫语系处理最佳实践
  • Qwen2.5-7B部署卡顿?注意力QKV偏置调优实战教程