双石击鸟:双层位置编码实现更好的长度外推
原文中文,约300字,阅读约需1分钟。发表于: 。利用自然语言序列的内在分割,设计了一种名为 Bilevel Positional Encoding(BiPE)的新的位置编码方法。每个位置的 BiPE 结合了分段内编码和分段间编码,从而能够捕捉语义信息,并通过相对位置编码来改善外推能力。理论分析表明,位置信息的解缠可以使学习更加有效。实证结果还表明,BiPE 在不同文本模态任务的广泛范围内具有出色的长度外推能力。
本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。