本研究提出双空间知识蒸馏(DSKD)框架,解决了白盒知识蒸馏在输出空间和词汇不兼容性的问题。通过统一模型预测头和精确标记对齐算法,DSKD显著提升了知识蒸馏效果,实验结果表明其在多个基准测试中优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。