理解Transformer的位置编码 - 蝈蝈俊
原文中文,约2200字,阅读约需6分钟。发表于: 。文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义。这里我整理了一些顺序不同,含义不同的例子。 传统的RNN模型在处理句子时,以序列的模式逐个处理句子中的词语,这使得词语的顺序信息在处理过程中被天然的保存下来了,并不需要额外的处理。 而对于Transformer来说,由于句子中的词语都是同
Transformer需要额外的处理来表示每个词语的相对位置,其中一种解决方案是Positional Encoding,它是一种三角函数位置编码,可以处理更长的语句,并且值有界,可以适配不同顺序和含义的语言。