视觉 Transformer 的旋转位置嵌入

使用 RoPE（Rotary Position Embedding）在 Vision Transformer（ViT）中的实际实现对 2D 视觉数据进行了综合分析，结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率，从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南，承诺在最小的额外计算开销下提高主干性能。

本论文介绍了共振RoPE和PosGen两种方法，用于改进大规模语言模型的性能。共振RoPE通过插值精化OOD位置的RoPE特征，提高模型性能。PosGen是为TSTL场景中的行为分析设计的基准，能够分离出生成长上下文令牌的难度和识别新令牌位置的挑战。实验证明，应用共振RoPE后，Transformer在识别OOD位置方面表现更好，性能更优秀。

PosGen Transformer 共振RoPE 大规模语言模型性能