本研究探讨大型语言模型(LLMs)是否真正理解其表达内容,设计了新的评估任务PhysiCo。结果显示,LLMs的表现比人类低约40%,并存在随机鹦鹉现象,表明任务的挑战源于内在困难。
完成下面两步后,将自动完成登录并继续当前操作。