Transformer 长度外推:以位置编码为视角的调查
原文中文,约300字,阅读约需1分钟。发表于: 。该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾,聚焦于可外推位置编码方法,旨在帮助读者深入理解已有方法并为未来研究提供启示。
本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响,发现NoPE表现更优秀且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。