快速多极注意力:一种长序列的分而治之注意机制
原文中文,约300字,阅读约需1分钟。发表于: 。Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses...
本文介绍了一种名为Mega的单头门控注意力机制,通过将整个序列分成多个具有固定长度的块,实现了线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等测试中,Mega优于其他序列模型,包括Transformer的变体和最近的状态空间模型。