Pytorch图像去噪实战(九十三):数据集版本管理实战,保证每次训练数据可追溯、可回滚
Pytorch图像去噪实战(九十三):数据集版本管理实战,保证每次训练数据可追溯、可回滚
一、问题场景:模型效果变好了,但不知道用了哪批数据训练
图像去噪项目进入迭代阶段后,数据会不断变化:
- 新增用户反馈样本
- 新增真实噪声数据
- 删除低质量图片
- 加入OCR场景样本
- 加入低光样本
- 修正错误GT
- 删除重复图
如果没有数据集版本管理,很快会出现:
同样代码、同样参数,重新训练结果却不一样。原因可能是数据变了。
这一篇我们解决:
如何给图像去噪训练数据做版本管理,保证每次训练可追溯、可复现、可回滚。
二、为什么数据版本比代码版本更重要?
深度学习项目中,模型结果由三部分决定:
代码 + 配置 + 数据很多人只管理代码和配置,却忽略数据。
但图像去噪中,数据变化影响极大:
- clean 数据质量变化
- hard cases 占比变化
- 噪声类型变化
- 低光样本增加</
