WinoWhat:带有常识分类的 paraphrased WinoGrande 句子的平行语料库

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译,并评估语言模型在五个常识知识类别上的表现。结果显示,所有模型在WinoWhat上的表现远低于预期,表明对WinoGrande的推理能力评估被高估。

🎯

关键要点

  • 本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译。
  • WinoWhat评估了语言模型在五个常识知识类别上的表现。
  • 所有模型在WinoWhat上的表现远低于预期。
  • 研究结果表明,对WinoGrande的推理能力评估被高估。
➡️

继续阅读