当前位置：首页 > news >正文

模型加载权重的时候发生了什么

news 2026/3/27 1:39:18

当你调用 GPNRoFormerForMaskedLM.from_pretrained(...) 时，程序的执行顺序是：

执行 init:

你的 self.adapter 被创建。

权重被手动设为 1.0 和 0.0。

执行 self.post_init():

这会调用 self.init_weights()，它会遍历模型的所有子模块。

风险点：如果你基类中的 _init_weights 方法对所有 nn.Linear 都有通用的初始化逻辑（比如正态分布或 Xavier 初始化），那么它会覆盖掉你在 init 里刚写好的 1.0。

加载 Checkpoint 文件:

如果 checkpoint 文件夹里包含 adapter 的权重（比如你训练过一次后保存的模型），那么它会完美覆盖之前的任何值。

如果 checkpoint 里不包含 adapter（比如你在加载官方预训练模型），那么 adapter 就会保留第 2 步 post_init 随机化后的结果。

http://www.jsqmd.com/news/452773/

相关文章：

2026年矿山煤矿电力电缆生产厂家推荐：中低压、低压、中压、变频等厂家名单 - 品牌2026

2026年天津消防电缆生产厂家推荐（含耐火、阻燃、阻燃B1级等全品类） - 品牌2026

346. Java IO API - 操作文件和目录

0309晨间日记

超越简单分类：构建面向真实世界的多层文本分类系统

基于贾子军事战略理论体系的美国军事 AI 系统深度研究报告

Harmonyos应用示例32. 有余数的除法：分草莓动画

Harmonyos应用示例33. 数量间的乘除关系：倍数关系可视化

Harmonyos应用示例34. 万以内的数的认识：数位拨珠器

Harmonyos应用示例35. 万以内的数的认识：数字排序游戏

Harmonyos应用示例36. 万以内的加法和减法：竖式计算器

Harmonyos应用示例37. 万以内的加法和减法：智慧购物

Harmonyos应用示例38. 数学连环画：故事拼图

Harmonyos应用示例39. 有余数的除法：余数与除数关系

拒绝全表扫描灾难：用 SSCAN 安全遍历 Redis 亿级 Set 集合

2603,禁止微软更新工具

2603C++,简单实现协程

如何快速搭建简单SpringBoot项目网页

如何使用 Python 连接 MySQL 数据库？

如何在docker中的mysql容器内执行命令与执行SQL文件

Flutter 组件 postgres_crdt 的适配鸿蒙Harmony 实战 - 驾驭分布式无冲突复制数据类型、实现鸿蒙端高性能离线对等同步架构方案

基于Java+SSM+Django大学生成果登记系统(源码+LW+调试文档+讲解等)/大学生成果登记系统使用教程/大学生成果登记平台/大学生成果管理系统/大学生成果申报系统/大学生成果展示系统

基于Java+SSM+Django健身中心管理系统(源码+LW+调试文档+讲解等)/健身中心管理软件/健身房管理系统/健身中心会员管理系统/健身房会员软件/健身房管理软件/健身俱乐部管理系统

Flutter 组件 t_stats 的适配鸿蒙Harmony 实战 - 驾驭高性能统计学运算、实现鸿蒙端海量数据实时态势感知与工业级描述性统计方案

在SpringBoot项目中集成MongoDB

地址转坐标：利用高德API进行批量地理编码

基于Java+SSM+Flask网页商城系统(源码+LW+调试文档+讲解等)/网页商城系统使用教程/网页商城系统开发/网页商城系统模板/网页商城系统源码/网页商城系统搭建/网页商城系统优势

Flutter 组件 http_retry 的适配鸿蒙Harmony 深度进阶 - 驾驭分布式负载感知重试、实现鸿蒙端高可靠通讯与协议幂等性审计方案

Flutter 组件 mock_client 的适配鸿蒙Harmony 实战 - 驾驭 HTTP 协议级测试模拟、实现鸿蒙端离线环境下的接口断言与质量门禁方案

某外包全员降薪，AI编程概念还没落地，外包程序员先背了锅，说句扎心的，这只是开始