稠密反向传播提升稀疏专家混合模型的训练

📝

内容提要

本研究解决了稀疏专家混合模型(MoE)预训练中反向更新稀疏导致的不稳定性和性能低下问题。提出了一种名为“默认MoE”的轻量级近似方法,使得MoE路由器可以接收稠密的梯度更新,从而显著提升训练性能。该方法在不增加显著计算开销的情况下,超越了传统的TopK路由方法。

🏷️

标签

➡️

继续阅读