BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

TransformerFAM:反馈注意力即工作记忆

我们提出了一种名为反馈注意力记忆(FAM)的新型 Transformer 架构,利用反馈循环使网络能够关注自身的潜在表示,从而促进 Transformer 内部的工作记忆的出现,使其能够处理无限长的序列。通过实验证明,TransformerFAM 在长文本任务中显著改善了 Transformer 的性能,无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。

该研究介绍了一种将基于Transformer的大型语言模型扩展到无限长输入的有效方法,同时保证有界内存和计算。该方法使用了新的Infini-attention技术,将压缩性记忆融入传统的注意力机制中,并在单个Transformer块中集成了局部和长期线性注意力机制。该方法在长文本语言建模、1M序列长度密钥上下文块检索和500K长度的书籍摘要任务上展示了有效性,使用1B和8B规模的大型语言模型。该方法引入了有界内存参数,并实现了LLMs的快速流式推理。

Infini-attention Transformer 有界内存 流式推理 语言模型

相关推荐 去reddit讨论