清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

🎯

关键要点

  • 清华大学PACMAN实验室发布MixQ开源系统,支持8比特和4比特混合精度推理。
  • MixQ实现大模型的近无损量化并提升推理吞吐,端到端吞吐比AWQ最大提升6倍。
  • MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。
  • 该系统已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2、ChatGLM等。
  • MixQ的设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
  • MixQ的核心思想是基于离群点的局部性优化混合精度计算图,降低访存开销。
  • MixQ在准确率表现方面与Bitsandbytes一致,但在性能上有显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍。
  • MixQ的实验结果显示,在batch=512情况下,相比Bitsandbytes和AWQ加速1.78和6倍。
➡️

继续阅读