大规模预训练语言模型在Winograd Schema Challenge上有所提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,维持更高的绝对性能。在大规模的专门任务数据集上微调可以解决这些问题。
研究提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。通过引入新的数据集WSC+,包含3,026个由Large Language Models生成的句子,对模型过度自信与偏见提供了更深入洞察。分析发现,LLMs在评估自己生成的问题时表现不佳,GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。
大规模预训练语言模型在Winograd Schema Challenge上表现提高,但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致,在非联想实例上表现更好。微调可以解决这些问题。
完成下面两步后,将自动完成登录并继续当前操作。