当前位置: 首页 > news >正文

some 知识点 knowledge

输出 查看模型结构 使用print(model) model.name_module() model.named_parameters()等方式查看层级结构

对于vit reanet yolox等常见架构 结合官方文档和源吗

确定可冻结/可训练的模块 在vit中 可以冻结 patch_embed 和前几层blocks 只微调后面几层+分类头

通过requires_grad控制梯度更新 冻结backbone 解冻特定层

微调的时候 不同模块用不同的学习率

还有的是在不同的epoch使用不同的学习率

学习率调度知识点:

按epoch变化 step decay 阶梯衰减 每隔固定epoch 学习率*一个衰减因子

多阶段衰减,在预设的epoch节点 衰减

linear warmup_decay 线性预热+衰减 前几个epoch线性增加 learning rate 之后按照step/cosine衰减

啥是cosine decay?余弦衰减 学习率就像余弦的图像一样衰减下来

关于早停机制、保存最佳模型、最终模型是否最优

在深度学习训练中,训练loss会持续下降,但是验证指标(比如准确率 mAp f1 )往往会线上升后下降 这就是过拟合

F1的计算就是:

不能只是保存最后的checkpoint 而是要监控验证指标,保存历史最佳

最好的标准是自己决定的:你所关心的指标达到最优就是 最好

早停机制 :当模型在验证集上不再变好时,提前终止训练, 在每个epoch 或者是n个step 在验证集上评估指标 如果连续 m个epoch没有提升,就停止训练

让我想起了一个叫做优化器的东西。

optimizer = torch.optim.AdamW(
model.parameters(),#model.parameters这些参数是需要被更新的
lr=5e-5,#学习率
weight_decay=0.05,#衰减
betas=(0.9, 0.98) # ViT 常用 beta1=0.9 当前梯度占0.1 过去梯度占0.9 beta2=0.98梯度平方的平滑,控制步长缩放,防止某些参数更新太猛

scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=500,#学习率这样持续500个step 注意step和epoch的区别 训练一次就能看出来了 epoch是多个step
num_training_steps=total_steps
)

http://www.jsqmd.com/news/94452/

相关文章:

  • 用计算机图形学优化服装定制与尺寸算法
  • 基于单片机的智能晾衣架系统设计
  • 基于Spring Boot + Vue技术的毕业设计管理系统选题大全(开题报告)附源码+说明书定制
  • 多肽合成丨DNSP-11 序列:PPEAPAEDRSL-NH2
  • 医疗Agent赛道又一笔融资,红杉领投
  • 云计算 虚拟化技术的实现
  • 数据仓库系统建设:数据采集、预处理与集成
  • 2023A卷,双十一
  • 再也不担心论文!Nano-Banana Pro 论文绘图最全教程发布
  • 基于单片机的写字楼智能垃圾桶设计
  • 关于印发《山东省人工智能产业高质量发展行动计划(2025-2027年)》的通知内容解析
  • 幻颜之约工厂的精益生产:永不满足的品质追求 - 速递信息
  • Laravel 13多模态数据校验实战:5个你必须掌握的核心模式与最佳实践
  • 第4.0章 自动驾驶七大定位方法总结:从RTK、激光、视觉定位到UWB,一文掌握厘米级定位核心技术
  • 分析openstack中快照占用存储空间问题
  • 2025年金属瓶盖厂家推荐:五金金属/香水/红酒/化妆品瓶盖厂家推荐 - 品致汇
  • 【流程】——Wordpress零代码快速建站
  • AES vs RSA vs ECC:三大加密算法终极对比,谁才是未来之王?
  • matlab如何生成自定义的msg消息以及对应的格式,具体方法(推荐)
  • 2025年昆明黄金店推荐:国民金匠只做黄金,藏着温度与匠心的黄金优选品牌 - charlieruizvin
  • 揭秘医疗系统日志漏洞:如何用PHP构建不可篡改的访问审计体系
  • 揭秘纤维协程超时机制:99%开发者忽略的关键陷阱与应对策略
  • github开源年会抽奖程序 收藏备用
  • 【Symfony 8微服务架构新纪元】:手把手搭建高可用服务注册中心
  • Wayland下RDP服务器的搭建 -
  • 产品经理AI转型秘籍:3-5年经验者的稳妥转型之路,大厂老兵实战指南,助你成功转型AI领域!
  • Categraf 监控采集器常见问题汇总
  • 用ICP-RIE刻蚀接触孔工艺中中,侧壁的角度与射频功率关系大不大?
  • 【甲基化研究必看】:基于R的DMP和DMR检测完整流程解析
  • 【GitHub开源AI精选】TradingAgents-CN:基于多智能体LLM的中文金融交易决策框架深度解析 - 指南