QMoE:万亿参数模型的实用次比特压缩
原文中文,约300字,阅读约需1分钟。
📝
内容提要
QMoE是一种新的压缩和执行框架,可以将1.6万亿参数的模型压缩至不到160GB,以较少的准确性损失实现了对廉价服务器上的万亿参数模型的执行,并相对于理想的未压缩推理只有不到5%的运行时开销。
🎯
关键要点
-
QMoE是一种新的压缩和执行框架。
-
该框架可以将1.6万亿参数的模型压缩至不到160GB。
-
实现了20倍压缩,每个参数仅需0.8个比特。
-
在单个GPU上执行压缩模型只需不到一天的时间。
-
能够在廉价服务器上执行万亿参数模型,如4x NVIDIA A6000或8x NVIDIA 3090 GPU。
-
相对于理想的未压缩推理,运行时开销不到5%。
🏷️