小红花·文摘

本研究提出了HashAttention，一种提高长上下文注意力计算效率的方法。HashAttention通过将关键token识别视为推荐问题，实现了$32 imes$的稀疏性，显著提升了模型推理速度，具有重要的实际应用潜力。