本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译,并评估语言模型在五个常识知识类别上的表现。结果显示,所有模型在WinoWhat上的表现远低于预期,表明对WinoGrande的推理能力评估被高估。
完成下面两步后,将自动完成登录并继续当前操作。