从容不迫:大型语言模型上上下文窗口扩展的高效配方,持续关注 “中间” 增强
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种用于训练和评估现代大型语言模型的上下文长度外推方法,通过测试发现线性标度是最佳方法,使用更长的标度在评估时获得更好结果。作者还发布了三个新的参数长上下文模型及代码。
🎯
关键要点
- 现代大型语言模型通常使用固定的上下文长度进行训练,限制了评估时的输入序列长度。
- 采用不断增长的上下文长度外推方法可以在训练时间上下文长度之外使用模型。
- 本文对现有的上下文长度外推方法进行了广泛调研,并介绍了一种新的截断策略。
- 使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)以及困惑度进行测试。
- 线性标度被发现是扩展上下文长度的最佳方法,使用更长的标度在评估时能获得更好结果。
- 在截断基础中存在有希望的推测能力。
- 发布了三个新的13B参数长上下文模型,名为Giraffe,包括4k、16k和32k上下文模型。
- 还发布了复制结果的代码,以支持进一步的研究。
➡️