小红花·文摘

本研究结合知识蒸馏和专家混合模型开发了高效的多语言语言模型，结果表明两种知识蒸馏方法性能相似，自适应α方法略微改善。模块化专家混合模型架构评估表明预训练语言专家和联合专家嵌入训练性能相似，引入公共专家可以改善模型性能。灾难性遗忘研究表明顺序训练导致显著遗忘，而单次训练和专家混合模型方法可以减轻此问题。本研究提供了开源资源。