小红花·文摘

QMoE是一种新的压缩和执行框架，可以将1.6万亿参数的模型压缩至不到160GB，以较少的准确性损失实现了对廉价服务器上的万亿参数模型的执行，并相对于理想的未压缩推理只有不到5%的运行时开销。