小红花·文摘

本文介绍了一种高效的量化框架，旨在解决大型语言模型的内存需求和推断成本问题。通过SqueezeLLM和QFT等方法，实现了高达3位的无损压缩和内存优化，显著提高了推断性能。研究表明，量化模型在保持准确性的同时，能够在GPU上实现更高的吞吐量，且新型算法ABQ-LLM在低比特宽度执行中表现优异。