本文提出了基于知识蒸馏的方法来解决阅读理解系统的困境,并通过有效性论证和创新方法来指导训练。实验结果表明,最佳学生模型在推理期间仅需运行12倍的时间,与集成模型相比,在SQuAD测试集上仅有0.4%的F1得分下降,并在对抗SQuAD数据集和NarrativeQA基准测试中胜过老师。
完成下面两步后,将自动完成登录并继续当前操作。