小红花·文摘

本文介绍了一种高效的量化框架，旨在解决大型语言模型的内存需求和推断成本问题。通过SqueezeLLM和QFT等方法，实现了高达3位的无损压缩和内存优化，显著提高了推断性能。研究表明，量化模型在保持准确性的同时，能够在GPU上实现更高的吞吐量，且新型算法ABQ-LLM在低比特宽度执行中表现优异。

BriefGPT - AI 论文速递 ·

LinGCN是一个优化同态加密推断性能的框架，通过线性化算法和离散指示函数实现更优的收敛性和运算融合，同时降低乘法深度。实验表明，LinGCN优于CryptoGCN，实现了14.2倍的延迟加速，保持了75%的推断准确率。

BriefGPT - AI 论文速递 ·