土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】21｜位置编码：为什么需要它，为什么用正弦

💡 原文中文，约39900字，阅读约需95分钟。

📝

内容提要

本文讨论了Transformer模型中的位置编码，特别是正弦位置编码。由于自注意力机制的排列等变性，模型无法识别序列中token的顺序，因此需要引入位置信息。正弦位置编码通过sin和cos函数提供相对位置的线性表达能力，允许模型在不同位置之间进行有效学习。文章还探讨了绝对位置编码和相对位置编码的表现差异，强调了位置编码在模型性能和外推能力中的重要性。

🎯

关键要点

Transformer模型中的位置编码是必要的，因为自注意力机制无法识别序列中token的顺序。
正弦位置编码通过sin和cos函数提供相对位置的线性表达能力，允许模型在不同位置之间进行有效学习。
绝对位置编码和相对位置编码在表现上存在差异，后者更适合处理相对距离的任务。
位置编码直接影响模型的性能和外推能力，尤其是在长上下文场景中。
可学习位置编码在训练长度外的表现较差，导致模型无法有效处理超出训练长度的输入。
RoPE和ALiBi等新方法通过将位置编码直接融入注意力机制，改善了模型的外推能力。

🔎

延伸解读

位置编码的必要性

在Transformer模型中，自注意力机制的排列等变性使得模型无法识别序列中token的顺序，因此引入位置编码是必不可少的。位置编码通过提供位置信息，帮助模型理解token之间的相对位置关系，从而提升模型在处理序列数据时的表现。

正弦位置编码的优势

正弦位置编码利用sin和cos函数的特性，能够有效地表达相对位置。这种编码方式允许模型通过线性变换学习到token之间的相对距离，使得模型在长上下文场景中表现更为稳定。相比之下，可学习位置编码在训练长度外的表现较差，限制了模型的外推能力。

相加与拼接的选择

在位置编码的实现中，选择将位置编码与词嵌入相加而非拼接，能够让模型在高维空间中自由分配子空间。这种设计使得模型可以同时利用语义和位置信息的交互，提升了模型的表达能力和训练效率。

外推能力的影响

位置编码的设计直接影响模型的外推能力。正弦位置编码在训练长度之外仍能保持一定的有效性，而可学习位置编码则在超出训练长度时表现不佳。这一现象强调了在长上下文任务中，选择合适的位置编码方案的重要性。

❓

延伸问答

为什么Transformer模型需要位置编码？

因为自注意力机制无法识别序列中token的顺序，位置编码提供了位置信息。

正弦位置编码是如何工作的？

正弦位置编码通过sin和cos函数提供相对位置的线性表达能力，允许模型有效学习不同位置之间的关系。

绝对位置编码和相对位置编码有什么区别？

绝对位置编码直接告诉模型每个token的具体位置，而相对位置编码则只告诉模型token之间的相对距离。

位置编码对模型性能有什么影响？

位置编码直接影响模型的性能和外推能力，尤其是在处理长上下文时。

可学习位置编码的缺点是什么？

可学习位置编码在训练长度外的表现较差，导致模型无法有效处理超出训练长度的输入。

RoPE和ALiBi是如何改善位置编码的？

RoPE和ALiBi通过将位置编码直接融入注意力机制，增强了模型的外推能力。

🏷️