QMoE:万亿参数模型的实用次比特压缩
原文中文,约300字,阅读约需1分钟。发表于: 。此研究论文介绍了一种名为 QMoE 的新的压缩和执行框架,通过可扩展的算法和 GPU 解码内核,将 1.6 万亿参数的 SwitchTransformer-c2048 模型压缩至不到 160GB(即 20 倍压缩,每个参数 0.8 个比特),在单个 GPU 上只需不到一天的时间,以较少的准确性损失实现了对廉价服务器(如 4x NVIDIA A6000 或 8x NVIDIA 3090...
QMoE是一种新的压缩和执行框架,可以将1.6万亿参数的模型压缩至不到160GB,以较少的准确性损失实现了对廉价服务器上的万亿参数模型的执行,并相对于理想的未压缩推理只有不到5%的运行时开销。