谁是罪犯:评估推理能力在推理故事中的应用基准

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究探讨大型语言模型在叙事推理中的能力,使用WhoDunIt数据集评估模型识别罪犯的能力。结果表明,尽管模型在原文中表现良好,但在特定名字替换情况下准确性下降。

🎯

关键要点

  • 本研究探讨大型语言模型在叙事推理中的能力。
  • 使用WhoDunIt数据集评估模型识别罪犯的能力。
  • 研究提出了一种新的数据集,挑战LLM在阅读和理解故事后识别罪犯。
  • 通过多种角色级别的名字增强方法评估模型的鲁棒性。
  • 研究发现,LLM在未修改文本上的表现可靠。
  • 在某些广为人知的名字替换情况下,模型的准确性有所下降。
➡️

继续阅读