WinoWhat:带有常识分类的 paraphrased WinoGrande 句子的平行语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了 WinoWhat 语料库,以评估语言模型的常识推理能力。结果显示,模型在 WinoWhat 上的表现远低于预期,表明对 WinoGrande 的评估存在高估现象。
🎯
关键要点
- 本研究提出了 WinoWhat 语料库,用于评估语言模型的常识推理能力。
- WinoWhat 包含了 WinoGrande 验证集的每个实例的意译。
- 研究针对五个常识知识类别评估了模型的表现。
- 所有模型在 WinoWhat 上的表现远低于预期。
- 结果表明对 WinoGrande 的模型推理能力的评估存在高估现象。
🏷️
标签
➡️