遗忘变压器:带遗忘门的Softmax注意力

📝

内容提要

本研究针对传统Transformer模型在长上下文语言建模中性能不足的问题,提出了一种新颖的“遗忘注意力”机制,通过数据依赖的方式对未归一化的注意力得分进行下调,从而构建“遗忘变压器”(FoX)。研究发现,FoX在长上下文任务上优于传统Transformer,并在不需要位置信息的情况下,兼容FlashAttention算法,显著提升了模型在短上下文下游任务的表现。

➡️

继续阅读