小红花·文摘

本研究探讨大型语言模型在叙事推理中的能力，使用WhoDunIt数据集评估模型识别罪犯的能力。结果表明，尽管模型在原文中表现良好，但在特定名字替换情况下准确性下降。