小红花·文摘

我们提出了一种叫作MoDE的方法，通过适度的相互蒸馏，使每个专家能够掌握其他专家学习到的更多特征，从而对其原始分配的子任务有更准确的认识。实验证明了MoDE的有效性、普适性和鲁棒性。通过创新地构建“专家探针”进行了平行研究，实验性地证明了为什么MoDE起作用：适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能，从而提升MoE的整体性能。