QUITO-X：一种基于信息瓶颈的跨注意力压缩算法

本研究解决了生成性LLM在复杂任务中所面临的长上下文导致的高成本和信息冗余问题。我们提出了一种新的度量方法：通过在编码器-解码器架构中使用跨注意力，显著提升小型模型的表现，降低延迟，并在保持表现的同时，压缩率提高近25%。

本文介绍了一种将信息瓶颈理论应用于检索增强生成的方法，通过最大化压缩和生成结果的互信息，最小化压缩和检索到的内容之间的互信息，实现对噪声的过滤。实验证明该方法在问答数据集中取得了显著的改进。