清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
内容提要
清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
关键要点
-
清华大学PACMAN实验室发布MixQ开源系统,支持8比特和4比特混合精度推理。
-
MixQ实现大模型的近无损量化并提升推理吞吐,端到端吞吐比AWQ最大提升6倍。
-
MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。
-
该系统已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2、ChatGLM等。
-
MixQ的设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
-
MixQ的核心思想是基于离群点的局部性优化混合精度计算图,降低访存开销。
-
MixQ在准确率表现方面与Bitsandbytes一致,但在性能上有显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍。
-
MixQ的实验结果显示,在batch=512情况下,相比Bitsandbytes和AWQ加速1.78和6倍。
延伸问答
MixQ系统的主要功能是什么?
MixQ系统支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。
MixQ如何提升推理吞吐量?
MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性,从而提升吞吐量。
MixQ支持哪些大模型?
MixQ已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2和ChatGLM等。
MixQ在准确率方面表现如何?
MixQ的准确率表现与Bitsandbytes一致,采用8bit混合精度量化后的准确率下降不到0.1%。
MixQ的设计有哪些关键技术?
MixQ的设计包括对计算图的等价变换、设计混合精度数据结构和使用CUTLASS编写高性能算子。
MixQ的性能与其他系统相比如何?
MixQ在性能上显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍,且在batch=512情况下相较于Bitsandbytes和AWQ加速1.78和6倍。