小红花·文摘

本研究提出了ShadowKV系统，旨在解决长上下文大语言模型推理中的低吞吐量问题。该系统通过存储低秩键缓存和卸载值缓存，显著提高了内存利用率和吞吐量，支持高达6倍的批量尺寸，在A100 GPU上吞吐量提升达3.04倍，展现出良好的应用前景。