实验表明,通过减少精度量化可以恢复部分KV对的信息退化。重要的KV对需要高精度保留以保证质量。基于此,提出了混合精度KV缓存(MiKV),低精度保存被清除的KV对,高精度保留重要KV对,确保生成质量。该方法在多种基准上实现了优秀的压缩比和性能平衡。
实验证明减少精度量化保存的KV对能恢复引起的退化。提出了一种可靠的缓存压缩方法MiKV,通过保留被清除的KV对的低精度和重要的KV对的高精度来确保生成质量。与其他基准相比,该方法在多种基准和LLM骨干上提供了最先进的压缩比和性能的权衡。
完成下面两步后,将自动完成登录并继续当前操作。