GateLoop是一种利用线性递推模型的门控循环模型,实现了比现有模型更优越的自回归语言建模。它具有低成本的递归模式和高效的并行模式,对Transformer和最近提出的架构有重要影响。同时,GateLoop揭示了数据控制的相对位置信息对注意力机制的意义,并建议将数据控制的复杂累积乘积纳入上下文聚合的关键步骤,以实现更强大的序列模型。
本文介绍了一种名为Mega的单头门控注意力机制,具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。该文进一步提出了Mega的变体,通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中,证明了Mega优于其他序列模型,包括Transformer的变体和最近的状态空间模型。
完成下面两步后,将自动完成登录并继续当前操作。