小红花·文摘

本研究提出HEADINFER方法，解决大型语言模型在长上下文生成中的内存瓶颈问题。通过将键值缓存卸载到CPU RAM，显著降低GPU内存占用，最高可达92%，使得在单个消费级GPU上实现400万Token推理成为可能。