机器之心 ·

RAG新突破：块状注意力机制实现超低延迟检索增强

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

AIxiv专栏探讨了块状注意力机制（Block-Attention）在检索增强（RAG）中的应用。该机制通过独立编码文档，提高推理效率，减少延迟，微调后准确率接近自注意力模型。实验表明，Block-Attention在处理长文本时表现优异，显著提升效率。

🎯

🔎

块状注意力机制通过独立编码文档，显著提高了推理效率，尤其在处理长文本时表现优异。这种机制允许模型缓存文档表示，避免重复计算，从而在实际应用中减少延迟，提升响应速度。

直接切换到块状注意力机制可能导致模型准确率下降，因此微调过程至关重要。实验表明，经过适当的微调后，模型的准确率可以恢复，甚至在某些情况下超过自注意力模型的表现。

在块状注意力机制中，位置重新编码对模型性能至关重要。去除位置编码会导致准确率显著下降，说明在设计模型时，位置编码的处理不可忽视，尤其是在复杂的输入场景中。

❓

块状注意力机制通过独立编码文档，避免重复计算已见文档的表示，从而提升推理效率。

实验表明，块状注意力机制在处理长文本时表现优异，显著提升效率。

直接切换会导致模型准确率下降，需要经过微调才能恢复性能。

在微调阶段，模型经过100-1000步的调整后，能够适应块状注意力机制，准确率恢复至接近自注意力模型的水平。

在RAG场景中，块状注意力机制能显著减少推理延迟和计算量，提升响应速度。

位置重新编码对块状注意力模型至关重要，去除它会导致性能显著下降。

🏷️