量子位 ·

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

清华大学PACMAN实验室发布了MixQ开源系统，支持8比特和4比特混合精度推理，实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活，利用低精度张量核心加速推理，并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型，并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成，显著提升性能。

🎯

关键要点

清华大学PACMAN实验室发布MixQ开源系统，支持8比特和4比特混合精度推理。
MixQ实现大模型的近无损量化并提升推理吞吐，端到端吞吐比AWQ最大提升6倍。
MixQ通过量化权重和激活，利用低精度张量核心加速推理，并提取激活中的离群值以保持准确性。
该系统已支持多个主流大模型，如LLaMA3、Qwen2、Baichuan2、ChatGLM等。
MixQ的设计通过等价变换、数据结构优化和高性能算子生成，显著提升性能。
MixQ的核心思想是基于离群点的局部性优化混合精度计算图，降低访存开销。
MixQ在准确率表现方面与Bitsandbytes一致，但在性能上有显著提升，4bit Kernel性能达724TFLOPs，是FP16的3.13倍。
MixQ的实验结果显示，在batch=512情况下，相比Bitsandbytes和AWQ加速1.78和6倍。

🏷️

继续阅读

约束或自由：AI 工具化的两种答案
大模型在对话文本中表现优异，但缺乏实际操作能力。为实现AI的实际应用，需要赋予其行动能力，主要有两种技术路线：MCP和Skills。MCP注重标准化和安全...
从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践
本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构，强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实...
基于 AWS DevOps Agent 构建 AI 驱动的运维分析系统
AWS DevOps Agent 是一款 AI 驱动的自主运维工具，旨在简化企业在 AWS 上的运维工作。它能够自动接收告警、执行根因分析并生成报告，从而...
灯光、摄像、开源！
这篇文章讨论了Cult.Repo制作关于开源软件及其背后人物的纪录片。制片人Emma Tracey和Josiah Mcgarvie探讨了开源项目的吸引力，...
开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！
DeepSeek v4发布了Pro和Flash两个版本，分别拥有1.6T和284B参数，价格低至3.48美元和0.28美元。Pro版适合复杂任务，Flas...
OpenAI开源发布1.5B的隐私过滤模型可以精确识别文本中包含的个人隐私信息
OpenAI 发布了隐私过滤模型 Privacy Filter，能够精准识别并清除个人隐私信息，如姓名、电话和邮箱。该模型体积小，适合在普通设备上运行，并...

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

内容提要

关键要点

标签

继续阅读