当前位置：首页 > news >正文

transformer(下)

news 2026/3/27 0:58:50

接下来是decoder

decoder其实有两种，接下来介绍的是autoregressive的decoder

以语音辨识为例子，机器收到一段声音讯号作为输入到encoder，此时输出就是一排vector，接下来就是decoder的运作，产生语音辨识的结果

首先先给他一段特殊的符号，代表开始，接下来decoder会吐出一个向量，这个向量和我们要识别的单位是一样的，以中文为例子，这个输出向量的size就是我们中文汉字的长度，不同语言输出的单位是不一样的，比如英文可以选择字母的长度（26个），也可以选择用英文单词，这个可能会比较多，每一个中文的字都会对应一个数值，得到向量之前会和做分类一样跑一个softmax，这个向量里面的分数是一个distribution，也就是他们的分数相加的结果是1，分数最高的中文字就是最终的输出，如下图

接下来第一个输出的向量结果这个汉字会当作decoder新的一个输入，表示成一个one-hot vector当作输入，根据两个输入得到一个输出，还是根据这个输出向量对于每一个字的分数，分数最高的那一个输出，接下来继续拿第二个输出当作第三个输入，这样反复下去，因为decoder自己的输出就是自己的输入，所以也可能看到错误的结果也有可能引发后续的一步错步步错，如下图

看一下decoder的内部结构，看一下transformer里面的，如下图

先把encoder和decoder放在一起比较，如下图

把中间的decoder盖起来，会发现encoder和decoder并没有那么大的差别，有一点区别就是这里的multi-head attention里面也加了一个masked，如下图

我们原来的self-attention每一个输出都需要看所有的输入来综合判断，如下图

但是变成masked之后，我们不会再看右边的输入来输出，即b1考虑a1，b2考虑a1，a2， b3考虑a1，a2，a3， b4考虑a1，a2，a3，a4，如下图

更具体一点就是在计算b2的时候，我们只能a2的query和a1以及a2的key去计算，如下图

那么为什么masked呢？

因为我们decoder的输入是一个一个的，输出也是一个一个的都是顺序的，和self-attention一次性输入输出不一样的，如下图

接下来，还有一个关键的问题，decoder必须自己决定自己输出的长度，如何才能正确的知道输出的长度，如下图

推文接龙，一个人说一个字，然后继续接，当有一个人冒险去推一个“断”的时候才会停下来，如下图

decoder要做的事情也是一样，要去推一个“断”，我们也要准备一个特殊的符号去作为一个断的符号，如下图

当decoder产生完机器学习的习之后就会自动产生end来暂停，如下图

接下来说一下non-autoregressive的model即NAT

不一样的是一次产生整个句子，比如一次投入四个begin，然后产生四个output，这四个output就是一个句子，一种可能的做法是告诉机器一个数字，然后机器根据这个数字产生相对应长度的句子，另一个做法是假设我们这次输出的句子不会超过三百个字，那么我们就一次性产生一个三百个字的句子，然后看这个句子里面哪个会产生end，end右侧的句子我们全部都不算输出，全部忽略

NAT的好处第一个是平行化，如果是AT，那么要做好多次的encoder，但是NAT一次就可以，所以时间上更快，另外一个好处就是比较能够控制他的输出的长度，以语音辨识为例子，那么NAT的decoder假设我们要想让model讲话快一点，那么我们可以把长度变成一半，如下图

可以看一下multi-modality

接下来说一下decoder和encoder是如何穿句子的，即我们刚才遮起来的，叫做cross attention，如下图

首先，encoder根据输入得到三个输出，然后decoder根据begin经过masked self-attention得到一个向量，然后把这个输出的向量乘一个矩阵做一个transform得到一个query，encoder都产生key，把query和k1,k2,k3相乘的到向量，a1',a2',a3'，接下来，把a1',a2',a3'乘上v1,v2,v3，再相加得到v，这个v接下来会丢到fully-connected network，这个步骤就叫做cross attention，如下图

当然产生第一个中文字之后，接下里的运作是一样的，如下图

下面是一个实际文献的效果图，如下图

这个encoder和decoder都有很多层，原始paper里面无论那一层，都是encoder最后输出才是进入decoder，但其实不一定非要最后一层，这个可以去研究，如下图

最后，讲解训练的事情

查看全文

http://www.jsqmd.com/news/361305/