本研究提出了一种热身蒸馏方法,解决了知识蒸馏中教师与学生模型分布不匹配的问题,显著提升了蒸馏性能。在多个基准测试中,平均得分提高至少0.4,数学任务的准确率提高了1.9%。
完成下面两步后,将自动完成登录并继续当前操作。