通过位置编码比较图变换器
原文中文,约300字,阅读约需1分钟。发表于: 。图转换器的区分能力与位置编码的选择紧密相关,本文旨在理解绝对位置编码和相对位置编码之间的关系,并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果,我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力,从而为位置编码的未来设计提供指导。
本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer在更长序列上不一定需要显式的位置嵌入。