可学习内核函数的线性变换器在上下文模型中更好

📝

内容提要

为了进一步推动语言模型的次二次架构,我们提出了一种简单而优雅的变化,增强了其上下文学习能力,并通过多查询联想回忆任务和整体语言建模过程在 Pile 数据集上进行了评估。

🏷️

标签

➡️

继续阅读