泰国 Winograd Schema:泰语常识推理基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

大规模预训练语言模型在Winograd Schema Challenge上有所提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,维持更高的绝对性能。在大规模的专门任务数据集上微调可以解决这些问题。

🎯

关键要点

  • 大规模预训练语言模型在Winograd Schema Challenge上表现提高。

  • 这些模型对最小程度影响人类理解的语言扰动敏感。

  • 人类在预测中更稳定和一致,维持更高的绝对性能。

  • 人类在非联想实例上表现更好。

  • 人类比开箱即用的模型更正确,模型有时在错误的原因上是正确的。

  • 在大规模的专门任务数据集上微调可以解决这些问题。

➡️

继续阅读