通过在分段序列上训练扩展语言模型的输入上下文

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法,以处理更长的输入序列。作者测试了三个新的评估任务,并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型,名为Giraffe,并提供了复制结果的代码。

🎯

关键要点

  • 现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,限制了输入序列的长度。
  • 提出了一种上下文长度外推方法,以处理更长的输入序列。
  • 对现有的上下文长度外推方法进行了广泛调研,并介绍了新的设计。
  • 使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)进行测试,并发布在 HuggingFace 上。
  • 发现线性标度是扩展上下文长度的最佳方法,使用更长的标度可以获得进一步的收益。
  • 发布了三个新的长上下文模型,名为 Giraffe,包括 4k、16k 和 32k 上下文模型。
  • 提供了复制结果的代码,以支持进一步的研究。
➡️

继续阅读