本文提出了一种新的上下文压缩方法,适用于在线场景中的Transformer语言模型。该方法通过轻量级条件LoRA对压缩上下文记忆进行操作,以减小内存和注意力操作。性能与完整上下文模型相当,但所需上下文内存空间仅为原来的五分之一。
完成下面两步后,将自动完成登录并继续当前操作。