当前位置：首页 > news >正文

DINO的Teacher的“启动“问题

news 2026/5/11 0:29:28

DINO的Teacher的"启动"问题

一、Teacher的"启动"问题

Teacher不能是随机初始化的！否则输出就是噪声，Student学噪声→越学越乱 但DINO是无标签训练，没有预训练权重怎么办？ 解决方案：Teacher和Student从同一个起点出发，但"跑法"不同

二、具体启动流程

第0步：初始化

Student和Teacher都用同样的预训练权重初始化（比如ImageNet上训过的ViT，或者随机初始化也行，但收敛慢） Teacher = Student.copy() ← 两人起跑线相同

第1步：第一个Batch

输入：同一张图的两个视角（全局/局部） Teacher（看全局）→ 输出随机噪声（还没训练过） Student（看局部）→ 输出随机噪声 损失 = Student噪声 vs Teacher噪声 反向传播 → 更新Student Teacher不动！（不反向传播）

第2步：动量更新Teacher

Teacher_new = 0.9996 × Teacher_old + 0.0004 × Student_new Teacher吸收了Student 0.04%的更新

第3-N步：滚雪球

第100步： Student已经学了一点 → 输出有点意思了 Teacher = Student过去100步的平滑平均 → 比Student更稳 Student看局部（耳朵）→ 猜：[0.4, 0.3, 0.2, 0.1, 0.0] Teacher看全局（整猫）→ 猜：[0.7, 0.2, 0.1, 0.0, 0.0] 损失逼着Student向Teacher靠拢 Student学到："耳朵→大概率是猫" 第1000步： Student很厉害了 Teacher更厉害（集成历史版本） 两者形成"共识"：同一张图不同视角，输出一致

三、核心：Teacher是"Student的历史平均"

不是预训练好的老师，而是" Student的动量影子 " ┌─────────────────────────────────────────────┐ │ │ │ Student（在线训练） │ │ ↓ 反向传播更新 │ │ 每步都变，可能震荡/跑偏 │ │ │ │ ↓ 动量复制（每步0.04%） │ │ │ │ Teacher（影子网络） │ │ 不训练，只复制Student的滑动平均 │ │ 变化极慢，超级稳定 │ │ │ │ 效果：Teacher ≈ Student过去N步的平均模型 │ │ 类似"模型集成"，比当前Student更靠谱 │ │ │ └─────────────────────────────────────────────┘

四、为什么这样不会"鸡生蛋蛋生鸡"？

疑问：Student学Teacher，Teacher来自Student，那不是原地打转？ 关键：时间差！ Step 100的Student ← 学的是 Step 99的Teacher Step 99的Teacher = Step 1~99的Student平均 所以： Student（现在）学的是 Teacher（过去） Teacher（过去）比 Student（现在）稍微"落后"一点 就像： 你追你的影子 影子永远在你身后一点点 你追它 → 往前走 → 影子也往前走 但影子不会跑到你前面，因为光从你背后照来

在DINO里：Student永远追的是"自己的历史平均"，这个目标是可达的（因为就是过去的自己），但又** slightly ahead **（因为Teacher集成了更多历史信息）。

五、对比：MoCo的解决方式（另一种思路）

MoCo（Momentum Contrast）也用了动量编码器，但机制不同： MoCo: - 一个编码器（在线）提取查询特征 - 一个动量编码器提取"记忆库"里的特征 - 对比学习：查询 vs 记忆库中的正负样本 Teacher（动量编码器）也是动量更新 但记忆库里有几千个样本，包括"负样本"（不同图） DINO: - 没有记忆库！ - 只有当前Batch的图 - Teacher只看全局视图，Student只看局部视图 - 没有显式负样本，靠Centering防止崩溃

DINO比MoCo更简洁：不需要负样本对，也不需要大记忆库。