本研究提出HEADINFER方法,解决大型语言模型在长上下文生成中的内存瓶颈问题。通过将键值缓存卸载到CPU RAM,显著降低GPU内存占用,最高可达92%,使得在单个消费级GPU上实现400万Token推理成为可能。
完成下面两步后,将自动完成登录并继续当前操作。