本文介绍了一种高效的量化框架,旨在解决大型语言模型的内存需求和推断成本问题。通过SqueezeLLM和QFT等方法,实现了高达3位的无损压缩和内存优化,显著提高了推断性能。研究表明,量化模型在保持准确性的同时,能够在GPU上实现更高的吞吐量,且新型算法ABQ-LLM在低比特宽度执行中表现优异。
LinGCN是一个优化同态加密推断性能的框架,通过线性化算法和离散指示函数实现更优的收敛性和运算融合,同时降低乘法深度。实验表明,LinGCN优于CryptoGCN,实现了14.2倍的延迟加速,保持了75%的推断准确率。
完成下面两步后,将自动完成登录并继续当前操作。