当前位置：首页 > news >正文

day49

news 2026/7/6 0:53:55

@浙大疏锦行

1. 预训练的概念
核心定义：先在大规模通用数据集上训练一个基础模型（学习通用特征，如边缘、纹理、形状），再将这个模型的参数迁移到目标任务中，进行微调（Fine-tuning）或直接使用。
本质：利用 “通用数据的特征迁移”，解决目标任务数据量少、训练成本高的问题，是迁移学习的核心方式之一。
作用：大幅降低目标任务的训练时间；提升小数据集任务的模型性能；避免从零训练模型的过拟合风险。

2.经典的预训练模型

3.预训练的策略
（1）冻结预训练层（仅微调头部）：
操作：冻结预训练模型的大部分层（仅保留参数不更新），只修改模型的 “分类头”，仅训练分类头。
适用场景：目标任务数据量少、预训练模型特征足够通用。
（2）全量微调（Fine-tuning）：
操作：解冻预训练模型的部分 / 全部层，让所有层的参数随目标任务更新。
适用场景：目标任务数据量充足，需要模型适配任务的专属特征。
（3）特征提取（Feature Extraction）：
操作：直接用预训练模型的输出作为目标任务的特征，不更新预训练模型参数，仅训练新的分类器。
适用场景：目标任务与预训练任务高度相似，预训练特征可直接复用。

用预训练 ResNet18 完成 CIFAR10 分类

在CIFAR10 对比不同预训练模型（以 MobileNetV2 为例）

http://www.jsqmd.com/news/223162/

相关文章：

Qwen2.5-7B推理成本太高？按需GPU部署节省60%费用

Qwen2.5-7B vs Yi-34B推理速度对比：GPU利用率实测

Qwen2.5-7B部署优化：容器资源限制与性能平衡

Qwen2.5-7B数学能力提升：解题步骤生成实战教程

lvgl移植基础篇：显示屏与触摸屏配置手把手教学

Qwen2.5-7B镜像使用指南：快速获取API密钥实战教程

Qwen2.5-7B如何做角色扮演？条件设置部署实战教学

Qwen2.5-7B推理延迟高？KV Cache优化部署实战解决方案

快速理解数码管段选与位选信号布线方法

Qwen2.5-7B与Mixtral对比：稀疏模型vs密集模型部署效率分析

多级放大电路耦合方式详解：电容与直接耦合对比

基于GA-HIDMSPSO算法优化BP神经网络+NSGAII多目标优化算法工艺参数优化、工程设计优化（三目标优化案例）

全面讲解I2S协议工作原理：帧同步与位时钟关系解析

SerialPort数据帧解析：图解说明工业报文结构

Qwen2.5-7B游戏NPC对话系统：角色扮演部署实战教程

Qwen2.5-7B医疗咨询：症状分析与建议生成

Qwen2.5-7B物流行业案例：运单信息提取系统部署实操

Qwen2.5-7B响应不准确？微调数据集选择与部署策略

Qwen2.5-7B数学解题：复杂公式推导实战案例

为什么Qwen2.5-7B网页推理失败？GPU适配问题详解与解决步骤

Qwen2.5-7B多语言支持：29种语言处理案例解析

Qwen2.5-7B快速上手指南：新手开发者部署入门必看

Qwen2.5-7B保姆级教程：从零部署到网页推理的完整指南

Qwen2.5-7B与DeepSeek-V3对比评测：编程任务执行效率实战分析

Qwen2.5-7B金融领域应用：智能投顾系统搭建指南

Driver Store Explorer通俗解释：人人都能懂的维护工具

QTabWidget高亮当前活动页：通俗解释实现逻辑

人工智能之数学基础：大数定律之切比雪夫不等式

Qwen2.5-7B俄语NLP：斯拉夫语系处理最佳实践

Qwen2.5-7B部署卡顿？注意力QKV偏置调优实战教程