小红花·文摘

本研究提出了一种无训练的长文本外推方法——贪心注意力对数插值（GALI），旨在提升变换器基础的大型语言模型在处理超出训练上下文窗口的输入时的性能，利用预训练的位置信息显著增强模型的长文本理解能力。