小红花·文摘

本文介绍了一种自适应服务方法，用于高效部署Mixture-of-Experts模型，通过动态确定量化专家的数量和它们在CPU和GPU上的分布，优化吞吐量和模型质量的调整。该方法在最大量化条件下显著提高令牌生成的吞吐量，同时略微增加困惑度，但在动态和对输出质量敏感的应用中具有实际适用性。