通过N-best重排序实现精确的知识蒸馏

We propose utilizing n-best reranking to enhance Sequence-Level Knowledge Distillation (Kim and Rush, 2016) where we extract pseudo-labels for student model’s training data from top n-best...

本研究提出了一种利用n-best reranking来增强序列级知识蒸馏的方法，通过从前n个最佳假设中提取学生模型训练数据的伪标签，并利用多样化的模型集合选择最高质量的假设作为标签。实验证明该方法在翻译任务上有效，最好的学生模型在参数较少的情况下达到了与大型翻译模型相当的准确性。

n-best reranking 伪标签学生模型序列级知识蒸馏翻译任务