Pytorch图像去噪实战(三十一):断点续训完整方案,解决训练中断、权重丢失和实验不可复现问题
Pytorch图像去噪实战(三十一):断点续训完整方案,解决训练中断、权重丢失和实验不可复现问题
一、问题场景:训练跑了18小时,服务器断了
做图像去噪模型训练时,我最怕遇到的不是 loss 不下降,而是训练中途突然中断。
真实情况里很常见:
- 云服务器自动重启
- SSH连接断开
- CUDA显存溢出
- 训练脚本被误杀
- 磁盘写满
- 多人共用服务器被抢资源
- 训练到一半发现还要换参数
如果你只是这样保存模型:
torch.save(model.state_dict(),"model.pth")那么这个文件只能用于推理,不能完整恢复训
