本研究提出了LogQuant,一种基于对数过滤机制的2位量化方法,显著提升KV缓存的内存效率和性能。在大语言模型推理中,该方法提高了吞吐量和准确性,尤其在数学和代码补全任务上,准确性改善达40%至200%。
完成下面两步后,将自动完成登录并继续当前操作。