小红花·文摘

研究人员提出了WorldSense，用于评估LLMs在简单实体排列描述中进行简单推理时的隐式世界模型。他们测试了三个聊天LLMs，发现这些模型在只有三个对象时也会出错，并存在响应偏差。微调模型在类似问题上有改进，但没有超越约束问题空间的普适性。