本研究发现传统Transformer在处理长序列时受限于键-查询乘积。通过将注意力机制转化为特征图并引入卷积操作,提出了一种新方法,大幅提升了Transformer的性能,展示了架构发展的潜力。
该文章介绍了一种新的 LRNN 模型,具有块对角线和输入相关的转移矩阵,能够在正则语言任务中进行长度外推。该模型在求和、偶数对和模运算等任务中表现出色,具有快速的并行训练和恒定的推断成本。
完成下面两步后,将自动完成登录并继续当前操作。