InfiniPot：在内存受限的大型语言模型上进行无限上下文处理

本研究解决了大型语言模型在资源受限环境中处理长输入上下文的挑战，提出了InfiniPot，一个新颖的KV缓存控制框架，使得预训练的LLM能够在固定内存约束下高效管理大型序列。通过持续上下文蒸馏（CCD）方法，InfiniPot显著提升了各种自然语言处理任务的效果，展示了其在真实场景中的应用潜力和有效性。

我们开发了支持32,768个令牌的长上下文LLMs，通过持续预训练和长文本数据集构建。模型在语言任务和研究基准上表现优异，尤其在长上下文任务上超过Llama 2。70B变体在长上下文任务中优于gpt-3.5-turbo-16k。分析表明，长上下文持续预训练更高效。

LLMs Llama 2 gpt-3.5-turbo-16k 内存大型语言模型长上下文预训练