小红花·文摘

本文介绍了提高大型语言模型（LLMs）推理速度和效率的方法，包括自适应稀疏注意力机制SampleAttention、查询感知KV缓存算法和Infini-attention技术。这些方法有效降低了响应延迟，提高了吞吐量，并在处理长提示时保持了准确性。此外，研究还探讨了通过优化计算和内存管理来提升用户与LLMs的交互体验。