小红花·文摘

本文探讨了Transformer模型中的不同位置编码方法，提出了随机位置编码和相对位置编码的新方法，展示了其在长序列泛化和图像识别中的优越性能。研究表明，解码器模型可以在不依赖显式位置嵌入的情况下实现良好泛化，并优化了位置信息的利用，提升了模型准确性。