小红花·文摘

本文提出了一种基于知识蒸馏的方法来解决阅读理解系统困境，通过有效论证纯知识蒸馏模型的预测能力，并提出两种创新方法来惩罚混淆答案的预测并利用蒸馏出的对齐信息指导训练。实验结果表明，该方法在推理期间仅需12倍时间，与集成模型相比，在SQuAD测试集上仅下降0.4%的F1得分，并在对抗SQuAD数据集和NarrativeQA基准测试中胜过老师。