InfiniPot:在内存受限的大型语言模型上进行无限上下文处理
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
我们开发了支持32,768个令牌的长上下文LLMs,通过持续预训练和长文本数据集构建。模型在语言任务和研究基准上表现优异,尤其在长上下文任务上超过Llama 2。70B变体在长上下文任务中优于gpt-3.5-turbo-16k。分析表明,长上下文持续预训练更高效。
🎯
关键要点
- 开发了支持32,768个令牌的长上下文LLMs。
- 模型通过持续预训练和长文本数据集构建,表现优异。
- 在长上下文任务上,模型相对于Llama 2有显著提升。
- 70B变体在长上下文任务中优于gpt-3.5-turbo-16k。
- 长上下文持续预训练被证明更高效。
- 对Llama的位置编码进行了深入分析,讨论了其局限性。
- 研究了预训练过程中设计选择的影响,发现长文本数据集并非强大性能的关键。
➡️