小红花·文摘

本文提出了基于知识蒸馏的方法来解决阅读理解系统的困境，并通过有效性论证和创新方法来指导训练。实验结果表明，最佳学生模型在推理期间仅需运行12倍的时间，与集成模型相比，在SQuAD测试集上仅有0.4%的F1得分下降，并在对抗SQuAD数据集和NarrativeQA基准测试中胜过老师。