大模型上下文扩展之YaRN解析:从直接外推ALiBi、位置插值PI、NTK-aware插值、YaRN

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

本文介绍了一种新的RoPE扩展方法YaRN,可以高效扩展大型语言模型的上下文窗口。YaRN通过旋转位置嵌入实现,经过微调后可以达到最先进的性能。文章还介绍了YaRN的基本原理和位置插值的方法。

🎯

关键要点

  • YaRN是一种新的RoPE扩展方法,可以高效扩展大型语言模型的上下文窗口。
  • YaRN通过旋转位置嵌入实现,经过微调后可以达到最先进的性能。
  • 上下文窗口的最大长度是预训练大型语言模型的主要限制之一。
  • 位置编码是扩展上下文窗口的核心焦点,最初的Transformer使用绝对正弦位置编码。
  • 相对位置编码方案提升了Transformer的性能,但仍存在无法泛化到训练期间未见的上下文窗口的限制。
  • 位置插值方法通过对RoPE进行轻微修改,能够扩展上下文长度。
  • NTK感知插值和动态NTK插值是对现有插值方法的改进,已在开源模型中应用。
  • YaRN在不到0.1%的原始预训练数据上微调后,达到了上下文窗口扩展的最先进性能。
  • 动态缩放技术结合YaRN可以实现超过2倍的上下文窗口扩展,无需微调。
  • 位置插值方法通过在相对较少的数据上微调,成功扩展了上下文长度。
➡️

继续阅读