土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

💡 原文中文，约23100字，阅读约需55分钟。

📝

内容提要

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通，解决了RNN的长依赖问题。由于自注意力对位置无知，需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异，但其计算复杂度为O(N²)，引发了对优化的研究。

🎯

关键要点

自注意力机制允许序列内的每个token相互沟通，解决了RNN的长依赖问题。
自注意力的计算复杂度为O(N²)，引发了对优化的研究。
自注意力对位置无知，需通过位置编码注入位置信息。
多头注意力使不同头学习不同关系，增强了模型的表达能力。
自注意力在长序列处理上表现优异，但显存占用也随之增加。

🔎

延伸解读

自注意力的优势与局限

自注意力机制在处理长序列时表现优异，能够实现O(1)的跳数，解决了RNN在长依赖问题上的不足。然而，其计算复杂度为O(N²)，在长序列时显存占用也显著增加，这使得在资源有限的情况下使用自注意力变得困难。

位置编码的重要性

自注意力机制对位置无知，因此必须通过位置编码来注入位置信息。不同的编码方案（如绝对、相对、RoPE等）在外推性和长度泛化方面表现不同，选择合适的编码方案对模型性能至关重要。

多头注意力的功能分解

多头注意力允许模型在不同的头中学习不同的关系模式，例如共指关系和语法依存。这种功能分解使得模型能够更全面地理解上下文信息，提升了整体的表达能力。

注意力权重的解读

虽然注意力权重提供了模型关注的线索，但它们并不直接等同于模型的决策依据。需要结合多头的输出和其他层的信息来全面理解模型的行为，避免对单一权重的过度解读。

❓

延伸问答

自注意力机制如何解决RNN的长依赖问题？

自注意力机制允许序列内的每个token直接相互沟通，任意两个token之间的有效距离从RNN的O(N)降到O(1)，从而解决了长依赖问题。

自注意力的计算复杂度是什么？

自注意力的计算复杂度为O(N²)，这意味着处理长序列时显存占用也会显著增加。

为什么自注意力需要位置编码？

自注意力对位置无知，因此需要通过位置编码注入位置信息，以便模型能够理解token在序列中的相对位置。

多头注意力的作用是什么？

多头注意力使不同的头学习不同的关系，增强了模型的表达能力，能够捕捉到更复杂的模式。

自注意力在长序列处理上有哪些优缺点？

自注意力在长序列处理上表现优异，但其计算复杂度和显存占用均为O(N²)，这可能导致资源消耗过大。

自注意力机制的排列等变性有什么意义？

自注意力机制的排列等变性意味着输入序列的token顺序改变时，输出也会相应改变，但内容不变，这使得模型对token的顺序不敏感。

🏷️