大型语言模型(LLMs)在边缘设备上的应用日益增加,需快速高效地进行长上下文推理。KV缓存是主要瓶颈。为此,提出了QuantSpec框架,采用分层4位量化KV缓存,保持高接受率(>90%),实现约2.5倍的速度提升,并减少内存需求约1.3倍。
完成下面两步后,将自动完成登录并继续当前操作。