Transformer 中的位置编码初始化对关系推理的重要性

学习可学习的位置编码对关系推理任务的重要性进行研究，发现可学习的位置编码优于常用的其他位置编码，并且初始化对学到的表示和下游泛化性能有着重要影响。结果表明，在没有提供或无法确定真实位置的任务中，学习高性能和鲁棒性的位置编码对关系推理任务非常重要。

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀，且无需额外计算。同时，scratchpad对解决长度泛化问题并不总是有帮助，其格式对模型性能有很大影响。研究表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

NoPE方法 Transformer模型 scratchpad transformer 位置编码长度泛化