D03 注意力机制手算与代码实现
1.2 注意力计算的三阶段流程
注意力机制的计算过程可以分解为三个清晰的阶段:计算相似度、归一化权重、加权求和。这种设计模仿了人类注意力分配的过程——先评估各选项与当前任务的相关性,然后根据相关性分配注意力资源。
上图展示了注意力机制的三阶段计算流程。图中Query与Key1-4分别计算相似度得到s1-s4,经SoftMax归一化得到注意力权重a1-a4,最后与Value1-4加权求和得到Attention Value。
1.3 注意力计算的三阶段流程
根据图示,注意力机制的计算过程可分为三个清晰的阶段。设当前解码器的隐藏状态为Query向量(维度),编码器的各时间步隐藏状态同时作为Key和Value(各有n个,对应图中Key1-4和Value1-4)。
