泰国 Winograd Schema:泰语常识推理基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
大规模预训练语言模型在Winograd Schema Challenge上有所提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,维持更高的绝对性能。在大规模的专门任务数据集上微调可以解决这些问题。
🎯
关键要点
-
大规模预训练语言模型在Winograd Schema Challenge上表现提高。
-
这些模型对最小程度影响人类理解的语言扰动敏感。
-
人类在预测中更稳定和一致,维持更高的绝对性能。
-
人类在非联想实例上表现更好。
-
人类比开箱即用的模型更正确,模型有时在错误的原因上是正确的。
-
在大规模的专门任务数据集上微调可以解决这些问题。
➡️