WSC+: Enhancing the Winograd Schema Challenge with Tree-of-Experts
原文约100字/词,阅读约需1分钟。发表于: 。提出了 Tree-of-Experts (ToE) 这一新的提示方法,以增强 Winograd Schema Challenge 中问题的生成,引入了包含 3,026 个由 Large Language Models 生成的句子的新数据集 WSC+,并通过将新的 'ambiguous' 和 'offensive' 类别纳入 WSC...
研究提出了Tree-of-Experts (ToE)方法,用于增强Winograd Schema Challenge中问题的生成。通过引入新的数据集WSC+,包含3,026个由Large Language Models生成的句子,对模型过度自信与偏见提供了更深入洞察。分析发现,LLMs在评估自己生成的问题时表现不佳,GPT-4在WSC+上的准确率为68.7%,明显低于人类基准的95.1%。