minimind系统学习教程 - 基础组件02:位置编码(Position encoding)
🤔 1. 为什么(Why)
问题场景:Attention 的排列不变性
问题:Self-Attention机制本身是排列不变的(permutation invariant)
例子:
句子1: “我 喜欢 你” → {我, 喜欢, 你}
句子2: “你 喜欢 我” → {你, 喜欢, 我}
如果没有位置编码,Attention计算时:
- 两个句子包含相同的词(集合相同)
Attention权重完全相同- 无法区分顺序!
但显然,两个句子意思完全不同!
直觉理解:给词"打标签"
🏷️ 类比:位置编码就像给每个词贴上"座位号"
没有座位号:
- 老师点名:“张三、李四、王五”
- 学生随便坐
- 每天座位都不一样,无法记住位置关系
有座位号:
- 张三 → 座位1
- 李四 → 座位2
- 王五 → 座位3
- 位置关系固定,容易记忆
