小红花·文摘

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通，解决了RNN的长依赖问题。由于自注意力对位置无知，需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异，但其计算复杂度为O(N²)，引发了对优化的研究。