小红花·文摘

本文探讨了无监督学习在常识推理中的应用，特别是针对Winograd Schema Challenge的研究。通过对大量未标记数据的训练，提出了新的评估方法和基准，分析了现有基准的局限性，并展示了预训练语言模型在多语言环境中的有效性。研究表明，尽管模型表现有所提升，但仍存在对人类理解的敏感性差异。

泰国 Winograd Schema：泰语常识推理基准

BriefGPT - AI 论文速递 ·

研究提出了Tree-of-Experts (ToE)方法，用于增强Winograd Schema Challenge中问题的生成。通过引入新的数据集WSC+，包含3,026个由Large Language Models生成的句子，对模型过度自信与偏见提供了更深入洞察。分析发现，LLMs在评估自己生成的问题时表现不佳，GPT-4在WSC+上的准确率为68.7%，明显低于人类基准的95.1%。

WSC+: 基于专家树的增强 Winograd Schema 挑战

BriefGPT - AI 论文速递 ·

大规模预训练语言模型在Winograd Schema Challenge上表现提高，但对最小程度影响人类理解的例子的语言扰动敏感。人类在预测中更稳定和一致，在非联想实例上表现更好。微调可以解决这些问题。

普遍化温纳格术式及其情境性

BriefGPT - AI 论文速递 ·