GEAR: 基于高效 KV 缓存压缩的近无损低长度模型生成推断算法

📝

内容提要

提出了 GEAR,一种高效的 KV 缓存压缩框架,实现了几乎无损的高压缩比。相比其他方法,GEAR 在减少峰值内存大小的同时,实现了高达 2.38 倍的吞吐量提升。

🏷️

标签

➡️

继续阅读