解读多语言中对于是非问题的间接回答

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了BoolQ数据集和迁移学习的基线效果,发现从蕴涵数据进行转移的效果最好。作者的最佳方法是在MultiNLI上训练BERT,然后在训练集上重新训练它,准确率为80.4%。

🎯

关键要点

  • 本文研究了自然环境下的是/否问题。
  • 建立了名为BoolQ的阅读理解数据集,具有挑战性。
  • 探讨了一系列迁移学习的基线效果。
  • 发现从蕴涵数据进行转移的效果最好。
  • 即使从大规模预训练的语言模型(如BERT)开始,蕴涵数据仍然非常有益。
  • 最佳方法是在MultiNLI上训练BERT,然后在训练集上重新训练,准确率为80.4%。
  • 人类注释人员的准确率为90%,多数基准为62%。
  • 为未来的工作留下了巨大的差距。
➡️

继续阅读