清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
🎯
关键要点
- 清华大学PACMAN实验室发布MixQ开源系统,支持8比特和4比特混合精度推理。
- MixQ实现大模型的近无损量化并提升推理吞吐,端到端吞吐比AWQ最大提升6倍。
- MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。
- 该系统已支持多个主流大模型,如LLaMA3、Qwen2、Baichuan2、ChatGLM等。
- MixQ的设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
- MixQ的核心思想是基于离群点的局部性优化混合精度计算图,降低访存开销。
- MixQ在准确率表现方面与Bitsandbytes一致,但在性能上有显著提升,4bit Kernel性能达724TFLOPs,是FP16的3.13倍。
- MixQ的实验结果显示,在batch=512情况下,相比Bitsandbytes和AWQ加速1.78和6倍。
➡️