清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。
完成下面两步后,将自动完成登录并继续当前操作。