注意力对齐和灵活位置嵌入改进了 Transformer 长度外推
原文中文,约300字,阅读约需1分钟。发表于: 。提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。
本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,且无需额外计算。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。