本研究探讨大型语言模型在叙事推理中的能力,使用WhoDunIt数据集评估模型识别罪犯的能力。结果表明,尽管模型在原文中表现良好,但在特定名字替换情况下准确性下降。
完成下面两步后,将自动完成登录并继续当前操作。