QMoE是一种新的压缩和执行框架,可以将1.6万亿参数的模型压缩至不到160GB,以较少的准确性损失实现了对廉价服务器上的万亿参数模型的执行,并相对于理想的未压缩推理只有不到5%的运行时开销。
完成下面两步后,将自动完成登录并继续当前操作。