小红花·文摘

本研究提出了WinoWhat，一个新的语料库，包含WinoGrande验证集的意译，并评估语言模型在五个常识知识类别上的表现。结果显示，所有模型在WinoWhat上的表现远低于预期，表明对WinoGrande的推理能力评估被高估。