在线语言模型交互的压缩上下文记忆
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。
本文介绍了一种名为Attention Transition的新技术,能够在保持较小规模的情况下,实现更好的上下文理解。该技术在XSum上取得了显著改进。