当前位置: 首页 > news >正文

模型加载权重的时候发生了什么

当你调用 GPNRoFormerForMaskedLM.from_pretrained(...) 时,程序的执行顺序是:

执行 init:

你的 self.adapter 被创建。

权重被手动设为 1.0 和 0.0。

执行 self.post_init():

这会调用 self.init_weights(),它会遍历模型的所有子模块。

风险点:如果你基类中的 _init_weights 方法对所有 nn.Linear 都有通用的初始化逻辑(比如正态分布或 Xavier 初始化),那么它会覆盖掉你在 init 里刚写好的 1.0。

加载 Checkpoint 文件:

如果 checkpoint 文件夹里包含 adapter 的权重(比如你训练过一次后保存的模型),那么它会完美覆盖之前的任何值。

如果 checkpoint 里不包含 adapter(比如你在加载官方预训练模型),那么 adapter 就会保留第 2 步 post_init 随机化后的结果。

http://www.jsqmd.com/news/452773/

相关文章:

  • 2026年矿山煤矿电力电缆生产厂家推荐:中低压、低压、中压、变频等厂家名单 - 品牌2026
  • 2026年天津消防电缆生产厂家推荐(含耐火、阻燃、阻燃B1级等全品类) - 品牌2026
  • 346. Java IO API - 操作文件和目录
  • 0309晨间日记
  • 超越简单分类:构建面向真实世界的多层文本分类系统
  • 基于贾子军事战略理论体系的美国军事 AI 系统深度研究报告
  • Harmonyos应用示例32. 有余数的除法:分草莓动画
  • Harmonyos应用示例33. 数量间的乘除关系:倍数关系可视化
  • Harmonyos应用示例34. 万以内的数的认识:数位拨珠器
  • Harmonyos应用示例35. 万以内的数的认识:数字排序游戏
  • Harmonyos应用示例36. 万以内的加法和减法:竖式计算器
  • Harmonyos应用示例37. 万以内的加法和减法:智慧购物
  • Harmonyos应用示例38. 数学连环画:故事拼图
  • Harmonyos应用示例39. 有余数的除法:余数与除数关系
  • 拒绝全表扫描灾难:用 SSCAN 安全遍历 Redis 亿级 Set 集合
  • 2603,禁止微软更新工具
  • 2603C++,简单实现协程
  • 如何快速搭建简单SpringBoot项目网页
  • 如何使用 Python 连接 MySQL 数据库?
  • 如何在docker中的mysql容器内执行命令与执行SQL文件
  • Flutter 组件 postgres_crdt 的适配 鸿蒙Harmony 实战 - 驾驭分布式无冲突复制数据类型、实现鸿蒙端高性能离线对等同步架构方案
  • 基于Java+SSM+Django大学生成果登记系统(源码+LW+调试文档+讲解等)/大学生成果登记系统使用教程/大学生成果登记平台/大学生成果管理系统/大学生成果申报系统/大学生成果展示系统
  • 基于Java+SSM+Django健身中心管理系统(源码+LW+调试文档+讲解等)/健身中心管理软件/健身房管理系统/健身中心会员管理系统/健身房会员软件/健身房管理软件/健身俱乐部管理系统
  • Flutter 组件 t_stats 的适配 鸿蒙Harmony 实战 - 驾驭高性能统计学运算、实现鸿蒙端海量数据实时态势感知与工业级描述性统计方案
  • 在SpringBoot项目中集成MongoDB
  • 地址转坐标:利用高德API进行批量地理编码
  • 基于Java+SSM+Flask网页商城系统(源码+LW+调试文档+讲解等)/网页商城系统使用教程/网页商城系统开发/网页商城系统模板/网页商城系统源码/网页商城系统搭建/网页商城系统优势
  • Flutter 组件 http_retry 的适配 鸿蒙Harmony 深度进阶 - 驾驭分布式负载感知重试、实现鸿蒙端高可靠通讯与协议幂等性审计方案
  • Flutter 组件 mock_client 的适配 鸿蒙Harmony 实战 - 驾驭 HTTP 协议级测试模拟、实现鸿蒙端离线环境下的接口断言与质量门禁方案
  • 某外包全员降薪,AI编程概念还没落地,外包程序员先背了锅,说句扎心的,这只是开始