小红花·文摘

研究人员提出了一种解决大型语言模型处理长篇内容的新方法，通过上下文压缩和领域内参数高效微调，将模型的有效上下文窗口扩展到处理高达128k个令牌。实验结果显示，该方法在推理过程中使用更少的令牌，实现了高达7.62倍的加速，为高效处理长上下文提供了有希望的解决方案。