细粒度专家混合的比例尺定律

原文约300字,阅读约需1分钟。发表于:

通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外,我们证明在几乎任何计算预算下,将专家的大小设置成与前馈层相似的常见做法并不是最优的。

通过分析扩展的变量范围,研究人员建立了适用于细粒度混合专家模型的扩展规律,并推导出最佳的训练配置。结果显示,Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。研究还证明将专家的大小设置成与前馈层相似的常见做法并不是最优的。

相关推荐 去reddit讨论