相对位置的功能内插改进长上下文 Transformer
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,无需额外计算,能代表绝对和相对位置嵌入。但在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。
🎯
关键要点
- 研究了基于解码器的Transformer模型对长度泛化的影响。
- NoPE表现优秀,无需额外计算,能代表绝对和相对位置嵌入。
- 在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。
- scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能影响大。
- 解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。
➡️