研究人员提出了WorldSense,用于评估LLMs在简单实体排列描述中进行简单推理时的隐式世界模型。他们测试了三个聊天LLMs,发现这些模型在只有三个对象时也会出错,并存在响应偏差。微调模型在类似问题上有改进,但没有超越约束问题空间的普适性。
完成下面两步后,将自动完成登录并继续当前操作。