LM-Infinite:大语言模型的简易即时长度泛化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了使用上下文长度外推方法扩展现代大型语言模型在评估时处理输入序列长度的研究。通过调研和新设计,发现线性标度是最佳方法,并可进一步提高效果。同时,发现截断基础中存在有希望的推测能力。为了支持进一步研究,发布了三个新的参数长上下文模型,并提供了复制结果的代码。

🎯

关键要点

  • 现代大型语言模型通常使用固定的上下文长度进行训练,限制了评估时处理的输入序列长度。
  • 采用上下文长度外推方法可以在训练时间上下文长度之外使用较长序列。
  • 本文对现有的上下文长度外推方法进行了广泛调研,并介绍了新的设计,特别是截断策略。
  • 使用三个新的评估任务和困惑度进行测试,并将任务作为公共数据集发布在 HuggingFace 上。
  • 发现线性标度是扩展上下文长度的最佳方法,使用更长的标度可以获得进一步收益。
  • 在截断基础中发现有希望的推测能力。
  • 发布了三个新的 13B 参数长上下文模型,名为 Giraffe,包括 4k、16k 和 32k 上下文模型。
  • 提供了复制结果的代码以支持进一步研究。
➡️

继续阅读