发现虚构中的缺陷:通过情节漏洞检测评估语言模型的复杂推理

📝

内容提要

本研究解决了大语言模型在理解和推理叙事一致性方面的不足,提出通过情节漏洞检测作为评估语言理解的新方法。我们开发了名为FlawedFictionsMaker的算法,能够系统地合成缺陷情节,并基于此构建评估基准FlawedFictions,结果表明现有先进语言模型在处理这些情节漏洞时表现不佳,且情节越长,表现越差。

🏷️

标签

➡️

继续阅读