解读多语言中对于是非问题的间接回答
原文中文,约300字,阅读约需1分钟。发表于: 。本文关注的问题是针对是非问题的回答,针对这个具有挑战性的问题,我们发布了八种语言的新基准,并提出了一种利用远程监督方法来收集训练数据的方法。我们还证明了直接回答(即包含极性关键词)有助于训练模型解释间接回答(即不包含极性关键词)。实验结果表明,如果可以通过远程监督获得感兴趣语言的训练数据,单语微调是有益的(5 种语言)。此外,我们还展示了跨语言微调总是有益的(8 种语言)。
本文介绍了BoolQ数据集和迁移学习的基线效果,发现从蕴涵数据进行转移的效果最好。作者的最佳方法是在MultiNLI上训练BERT,然后在训练集上重新训练它,准确率为80.4%。