本文介绍了一种自适应服务方法,用于高效部署Mixture-of-Experts模型,通过动态确定量化专家的数量和它们在CPU和GPU上的分布,优化吞吐量和模型质量的调整。该方法在最大量化条件下显著提高令牌生成的吞吐量,同时略微增加困惑度,但在动态和对输出质量敏感的应用中具有实际适用性。
完成下面两步后,将自动完成登录并继续当前操作。