AI 数学的秘密花园:12.残差连接为什么重要?(信息高速公路,堵车了还能绕道)
第12章:残差连接为什么重要?(信息高速公路,堵车了还能绕道)
上一章咱们在超级大厨房里把FeedForward这个“提味大厨”看了个遍,是不是已经闻到满屋子香味儿了?今天咱们来聊Transformer里另一个低调却超级重要的“隐形英雄”——残差连接(Residual Connection,也叫Skip Connection)。它就是那条永远不堵车的信息高速公路,让信息和梯度都能一路畅通无阻!
(瞧这张,经典的x + F(x)图:主路走加工,辅路直接绕过去,多清晰!)
残差连接不是多此一举,而是给AI修了一条“信息高速公路”——主路堵车了,还有应急车道可以直接冲过去!
想象你在开车去郊区:
主路是普通国道(就是Transformer每一层的正常加工路径:注意力→FeedForward→各种计算)。
高峰期一到,主路车满为患(深层网络里信号越传越弱、梯度越来越小)。
这时候残差连接就像旁边一条应急车道(也叫skip connection):你直接把“原始信息”从入口一路拉到出口,中间只加一点点“加工后的改变”(F(x))。
最后两股车流在出口汇合:x + F(x)。
原始信息没丢,新加工的信息也加进来了,双保险!
(看这张堵车高速公路图:主路全是红灯长龙,旁边应急车道空空荡荡——这不就是残差连接在救场吗?)</
