WinoWhat:带有常识分类的 paraphrased WinoGrande 句子的平行语料库

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了 WinoWhat 语料库,以评估语言模型的常识推理能力。结果显示,模型在 WinoWhat 上的表现远低于预期,表明对 WinoGrande 的评估存在高估现象。

🎯

关键要点

  • 本研究提出了 WinoWhat 语料库,用于评估语言模型的常识推理能力。
  • WinoWhat 包含了 WinoGrande 验证集的每个实例的意译。
  • 研究针对五个常识知识类别评估了模型的表现。
  • 所有模型在 WinoWhat 上的表现远低于预期。
  • 结果表明对 WinoGrande 的模型推理能力的评估存在高估现象。
➡️

继续阅读