小红花·文摘

本研究提出了LogQuant，一种基于对数过滤机制的2位量化方法，显著提升KV缓存的内存效率和性能。在大语言模型推理中，该方法提高了吞吐量和准确性，尤其在数学和代码补全任务上，准确性改善达40%至200%。