小红花·文摘

本研究发现传统Transformer在处理长序列时受限于键-查询乘积。通过将注意力机制转化为特征图并引入卷积操作，提出了一种新方法，大幅提升了Transformer的性能，展示了架构发展的潜力。

BriefGPT - AI 论文速递 ·

该文章介绍了一种新的 LRNN 模型，具有块对角线和输入相关的转移矩阵，能够在正则语言任务中进行长度外推。该模型在求和、偶数对和模运算等任务中表现出色，具有快速的并行训练和恒定的推断成本。

BriefGPT - AI 论文速递 ·