降级重利用:通过部分重新初始化训练稀疏专家混合模型

📝

内容提要

本研究针对稀疏混合专家(MoE)模型训练缓慢的问题,提出了一种新的方法——降级重利用。该方法结合了预训练稠密模型的知识与部分权重的统计重新初始化,有效提高了MoE模型在知识获取上的效率。实验结果表明,降级重利用在长时间训练中显著优于以往的MoE构建方法,实现了更高效的性能和更低的训练成本。

🏷️

标签

➡️

继续阅读