知识蒸馏与固定计算预算下的从零开始训练对比

相对于基于标准语言模型（LM）的从头开始预训练，知识蒸馏（KD）需要额外进行一次前向传递，通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种 KD 策略在计算资源和预训练数据方面的表现，结果发现虽然从头开始预训练与固定计算资源下的普通 KD 相媲美，但更复杂的 KD 策略，即 TinyBERT 和 MiniLM，优于从头开始预训练。

本研究比较了从头开始预训练与几种知识蒸馏策略在计算资源和预训练数据方面的表现。结果发现TinyBERT和MiniLM优于从头开始预训练。其他研究提出了MixKD、MKD、KDEP、MiniLLM、交流式通信、基于Transformer的压缩方法、ATKD、中间层蒸馏、标签正则化微调和适应文本分类任务的方法。

MKD MiniLM MixKD TinyBERT 知识蒸馏