香草变形器是传输能力教师
原文中文,约500字,阅读约需2分钟。发表于: 。近期,混合专家 (MoE) Transformer 因其在模型容量和计算效率方面的优势而备受关注。然而,研究表明,在许多下游任务中,MoE Transformer 表现不及普通 Transformer,显著降低了 MoE 模型的实用价值。为了解释这个问题,我们提出模型的预训练性能和迁移能力是其下游任务性能的共同决定因素。相比于普通模型,MoE...
研究发现混合专家 (MoE) Transformer 在下游任务中表现不佳,降低了其实用价值。研究者提出了迁移能力蒸馏的概念,通过普通模型的指导,提高了MoE模型在下游任务中的性能。实验证明,迁移能力蒸馏可以显著提升MoE模型的下游性能。