动量稀疏专家模型:将动量整合入稀疏专家混合模型

📝

内容提要

本研究解决了稀疏专家混合模型(SMoE)在训练不稳定和对新分布适应性差的问题,导致模型在数据污染时缺乏鲁棒性。我们提出了一种新方法MomentumSMoE,理论和实验证明其比传统SMoE更稳定和鲁棒,适用于多种实际任务,如图像识别和语言建模。

🏷️

标签

➡️

继续阅读