大型语言模型(LLMs)在自然语言处理领域取得了突破,但因运行成本高而难以广泛应用。本文提出了一种新颖的后训练压缩方法SeedLM,通过伪随机生成器的种子编码和压缩模型权重,利用线性反馈移位寄存器生成随机矩阵,结合压缩系数重构权重块。SeedLM减少内存访问,提升内存密集型任务的速度,且无需校准数据,适用于多种任务。实验表明,SeedLM在4位和3位压缩下的零-shot准确率与最先进方法相当,并在FPGA测试中显示出显著加速效果。
完成下面两步后,将自动完成登录并继续当前操作。