高效LLM推理的跨层KV共享系统研究
发表于: 。该研究解决了大语言模型推理中KV缓存利用率低的问题,提出了一种统一框架来系统性地探索不同的跨层KV共享技术。研究发现,当KV缓存大小减少至一半时,多数配置的性能优于标准变换器,并有潜力在进一步减少缓存时通过与高层KV配对来保持性能,尽管这会增加训练成本和填充延迟。
该研究解决了大语言模型推理中KV缓存利用率低的问题,提出了一种统一框架来系统性地探索不同的跨层KV共享技术。研究发现,当KV缓存大小减少至一半时,多数配置的性能优于标准变换器,并有潜力在进一步减少缓存时通过与高层KV配对来保持性能,尽管这会增加训练成本和填充延迟。