理解长上下文 LLMs 的 RoPE 扩展:一个注意力视角
原文中文,约500字,阅读约需2分钟。发表于: 。以关注 LLMs 为研究热点,本文从注意力角度对 RoPE 拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。
本文探索了现有嵌入模型的上下文窗口扩展,将限制提升到32k,而不需要额外的训练。通过新构建的LongEmbed基准测试,发现有巨大的改进空间。实验表明扩展策略可以有效地将现有嵌入模型的上下文窗口扩展多倍。发布了E5-Base-4k和E5-RoPE-Base数据集,并提供了LongEmbed基准测试。