检索注意力：通过向量检索加速长上下文大型语言模型推理

本研究针对Transformer基础的大型语言模型（LLMs）在处理长上下文时面临的高推理延迟和GPU内存消耗问题，提出了RetrievalAttention方法。该方法通过在CPU内存中构建近似最近邻搜索（ANNS）索引，利用注意力的动态稀疏特性，显著降低了推理成本和内存需求，同时保持了模型的准确性。检索注意力在支持128K个标记的情况下仅需16GB的GPU内存，显著提高了推理效率。

本研究提出了RetrievalAttention方法，用于解决Transformer模型在处理长上下文时的推理延迟和GPU内存消耗问题。该方法通过在CPU内存中构建近似最近邻搜索索引，利用注意力的动态稀疏特性，降低了推理成本和内存需求，同时保持了模型准确性。检索注意力仅需16GB的GPU内存，显著提高了推理效率。