仅基于注意力的变压器中的记忆化

本研究解决了多头注意力的记忆化能力受限于不切实际的上下文大小的问题。我们提出了一种新颖的证明，扩展了现有假设，显示我们的模型在任意上下文大小下都能有效实现准确记忆，同时引入了对分布的近似记忆概念。实验验证表明，我们的方法能更准确地反映语言模型的真实记忆能力，并与以前的研究进行了精准比较。

发表于：。