海豚:长上下文作为能效高的设备内语言模型的新模式
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了现代大型语言模型(LLMs)在处理较长序列时的上下文长度外推方法,并提出了一种修改位置编码基础的截断策略。作者通过广泛调研发现线性标度是扩展上下文长度的最佳方法,并且使用更长的标度在评估时可以获得进一步的收益。作者还发布了三个新的13B参数长上下文模型,并提供了复制结果的代码。
🎯
关键要点
- 现代大型语言模型(LLMs)使用固定的上下文长度进行训练,限制了输入序列的长度。
- 提出了一种不断增长的上下文长度外推方法,以处理较长序列。
- 对现有的上下文长度外推方法进行了广泛调研,并介绍了新的设计,特别是修改位置编码基础的截断策略。
- 使用三个新的评估任务(FreeFormQA,AlteredNumericQA和LongChat-Lines)以及困惑度进行测试,并将任务数据集发布在HuggingFace上。
- 发现线性标度是扩展上下文长度的最佳方法,使用更长的标度在评估时可以获得进一步的收益。
- 在截断基础中发现有希望的推测能力。
- 发布了三个新的13B参数长上下文模型,名为Giraffe,包括4k、16k和32k上下文模型。
- 提供了复制结果的代码以支持进一步研究。
➡️