WinoWhat:带有常识分类的 paraphrased WinoGrande 句子的平行语料库
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译,并评估语言模型在五个常识知识类别上的表现。结果显示,所有模型在WinoWhat上的表现远低于预期,表明对WinoGrande的推理能力评估被高估。
🎯
关键要点
- 本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译。
- WinoWhat评估了语言模型在五个常识知识类别上的表现。
- 所有模型在WinoWhat上的表现远低于预期。
- 研究结果表明,对WinoGrande的推理能力评估被高估。
➡️