小红花·文摘

本研究提出了一种基于L2缓存的异步KV缓存预取方法，有效解决了大型语言模型推理中的内存瓶颈问题，显著提升了效率和吞吐量，超越了FlashAttention-3技术。