小红花·文摘

本研究针对混合专家（MoE）语言模型在资源受限环境中的应用挑战，提出了知识增强（KA）和学生感知路由器（SAR）两种知识蒸馏方法，有效提取专家知识，实验结果优于传统方法。