WSC+: 基于专家树的增强 Winograd Schema 挑战
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。通过引入新的数据集WSC+,包含3,026个由Large Language Models生成的句子,对模型过度自信与偏见提供了更深入洞察。分析发现,LLMs在评估自己生成的问题时表现不佳,GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。
🎯
关键要点
- 提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。
- 引入了新数据集WSC+,包含3,026个由Large Language Models生成的句子。
- 新数据集WSC+纳入了'ambiguous'和'offensive'类别,提供了对模型过度自信与偏见的深入洞察。
- 分析揭示了生成与评估一致性的细微差别,LLMs在评估自己生成的问题时表现不佳。
- GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。
➡️