清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

🎯

关键要点

  • 清华大学PACMAN实验室发布MixQ开源系统,支持8比特和4比特混合精度推理。

  • MixQ实现大模型的近无损量化并提升推理吞吐,端到端吞吐比AWQ最大提升6倍。

  • MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。

  • 该系统已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2、ChatGLM等。

  • MixQ的设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

  • MixQ的核心思想是基于离群点的局部性优化混合精度计算图,降低访存开销。

  • MixQ在准确率表现方面与Bitsandbytes一致,但在性能上有显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍。

  • MixQ的实验结果显示,在batch=512情况下,相比Bitsandbytes和AWQ加速1.78和6倍。

延伸问答

MixQ系统的主要功能是什么?

MixQ系统支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。

MixQ如何提升推理吞吐量?

MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性,从而提升吞吐量。

MixQ支持哪些大模型?

MixQ已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2和ChatGLM等。

MixQ在准确率方面表现如何?

MixQ的准确率表现与Bitsandbytes一致,采用8bit混合精度量化后的准确率下降不到0.1%。

MixQ的设计有哪些关键技术?

MixQ的设计包括对计算图的等价变换、设计混合精度数据结构和使用CUTLASS编写高性能算子。

MixQ的性能与其他系统相比如何?

MixQ在性能上显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍,且在batch=512情况下相较于Bitsandbytes和AWQ加速1.78和6倍。

🏷️

标签

➡️

继续阅读