小红花·文摘

本研究提出涡轮注意力（TurboAttention），通过FlashQ和稀疏软最大近似技术，显著提升大型语言模型的计算和内存效率，实现1.2-1.8倍的速度提升，KV缓存减少4.4倍。