视觉 Transformer 的旋转位置嵌入
原文中文,约400字,阅读约需1分钟。发表于: 。使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。
本论文介绍了共振RoPE和PosGen两种方法,用于改进大规模语言模型的性能。共振RoPE通过插值精化OOD位置的RoPE特征,提高模型性能。PosGen是为TSTL场景中的行为分析设计的基准,能够分离出生成长上下文令牌的难度和识别新令牌位置的挑战。实验证明,应用共振RoPE后,Transformer在识别OOD位置方面表现更好,性能更优秀。