大型语言模型(LLMs)在自然语言处理领域取得了突破,但因运行成本高而难以广泛应用。本文提出了一种新颖的后训练压缩方法SeedLM,通过伪随机生成器的种子编码和压缩模型权重,利用线性反馈移位寄存器生成随机矩阵,结合压缩系数重构权重块。SeedLM减少内存访问,提升内存密集型任务的速度,且无需校准数据,适用于多种任务。实验表明,SeedLM在4位和3位压缩下的零-shot准确率与最先进方法相当,并在FPGA测试中显示出显著加速效果。
本文介绍了DiTFastAttn,一种加速扩散变换器(DiT)推理的后训练压缩方法。通过消除空间、时间和条件冗余,DiTFastAttn在图像和视频生成任务中显著提高了效率,计算量减少高达88%,实现了1.6倍的加速。此外,Delta-DiT框架在生成过程中进一步优化了性能,展示了Transformer在扩散模型中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。