本研究提出了一种热身蒸馏的方法,解决了教师模型与学生模型之间的分布不匹配问题。该方法通过对齐学生与教师的知识,显著提升了蒸馏性能,实验结果显示在多个基准测试中平均得分提高了至少0.4,数学任务的准确率提高了1.9%。
完成下面两步后,将自动完成登录并继续当前操作。