通过在分段序列上训练扩展语言模型的输入上下文
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法,以处理更长的输入序列。作者测试了三个新的评估任务,并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型,名为Giraffe,并提供了复制结果的代码。
🎯
关键要点
- 现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,限制了输入序列的长度。
- 提出了一种上下文长度外推方法,以处理更长的输入序列。
- 对现有的上下文长度外推方法进行了广泛调研,并介绍了新的设计。
- 使用三个新的评估任务(FreeFormQA,AlteredNumericQA 和 LongChat-Lines)进行测试,并发布在 HuggingFace 上。
- 发现线性标度是扩展上下文长度的最佳方法,使用更长的标度可以获得进一步的收益。
- 发布了三个新的长上下文模型,名为 Giraffe,包括 4k、16k 和 32k 上下文模型。
- 提供了复制结果的代码,以支持进一步的研究。
➡️