WSC+: 基于专家树的增强 Winograd Schema 挑战

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。通过引入新的数据集WSC+,包含3,026个由Large Language Models生成的句子,对模型过度自信与偏见提供了更深入洞察。分析发现,LLMs在评估自己生成的问题时表现不佳,GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。

🎯

关键要点

  • 提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。
  • 引入了新数据集WSC+,包含3,026个由Large Language Models生成的句子。
  • 新数据集WSC+纳入了'ambiguous'和'offensive'类别,提供了对模型过度自信与偏见的深入洞察。
  • 分析揭示了生成与评估一致性的细微差别,LLMs在评估自己生成的问题时表现不佳。
  • GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。
➡️

继续阅读