QMoE:万亿参数模型的实用次比特压缩
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
QMoE是一种新的压缩和执行框架,可以将1.6万亿参数的模型压缩至不到160GB,以较少的准确性损失实现了对廉价服务器上的万亿参数模型的执行,并相对于理想的未压缩推理只有不到5%的运行时开销。
🎯
关键要点
- QMoE是一种新的压缩和执行框架。
- 该框架可以将1.6万亿参数的模型压缩至不到160GB。
- 实现了20倍压缩,每个参数仅需0.8个比特。
- 在单个GPU上执行压缩模型只需不到一天的时间。
- 能够在廉价服务器上执行万亿参数模型,如4x NVIDIA A6000或8x NVIDIA 3090 GPU。
- 相对于理想的未压缩推理,运行时开销不到5%。
➡️