图解人工智能(32)深度学习前沿
思考一下,序列到序列模型为什么难以处理过长的数据?注意力机制是如何解决这一问题的?
标准序列到序列模型由一个编码器将输入序列压缩成一个定长向量,再由一个解码器生成输出序列。当输入序列过长时,定长向量无法承载这些信息,必然会有一些信息会损失,导致性能下降。
注意力机制解决这一问题的办法是:不再把输入序列压缩成一个向量,而是保持输入序列中每一个元素的编码,在解码时参考整个编码序列,这样即便输入序列再长,也不会产生信息损失。
思考一下,序列到序列模型为什么难以处理过长的数据?注意力机制是如何解决这一问题的?
标准序列到序列模型由一个编码器将输入序列压缩成一个定长向量,再由一个解码器生成输出序列。当输入序列过长时,定长向量无法承载这些信息,必然会有一些信息会损失,导致性能下降。
注意力机制解决这一问题的办法是:不再把输入序列压缩成一个向量,而是保持输入序列中每一个元素的编码,在解码时参考整个编码序列,这样即便输入序列再长,也不会产生信息损失。