LongLoRA: 长文本大语言模型的高效微调
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种用于训练现代大型语言模型的不断增长的上下文长度外推方法,并测试了三个新的评估任务。作者发现线性标度是扩展上下文长度的最佳方法,并且使用更长的标度可以获得进一步的收益。作者还发布了三个新的长上下文模型,并提供了复制结果的代码。
🎯
关键要点
- 现代大型语言模型通常使用固定的上下文长度进行训练,限制了输入序列的长度。
- 采用不断增长的上下文长度外推方法可以在训练时间上下文长度之外使用模型。
- 本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一些新的设计。
- 使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行了测试。
- 线性标度被发现是扩展上下文长度的最佳方法,使用更长的标度可以获得进一步的收益。
- 在截断基础中存在有希望的推测能力。
- 发布了三个新的13B参数长上下文模型,名为Giraffe,包括4k、16k和32k上下文模型。
- 提供了复制结果的代码以支持进一步的研究。
➡️