小红花·文摘

大规模预训练语言模型在Winograd Schema Challenge上表现提高，但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致，在非联想实例上表现更好。微调可以解决这些问题。