本研究提出了ShadowKV系统,旨在解决长上下文大语言模型推理中的低吞吐量问题。该系统通过存储低秩键缓存并卸载值缓存,显著提升了吞吐量,支持高达6倍的批量尺寸,在A100 GPU上吞吐量提升达到3.04倍。
完成下面两步后,将自动完成登录并继续当前操作。