小红花·文摘

本研究探讨大型语言模型（LLMs）是否真正理解其表达内容，设计了新的评估任务PhysiCo。结果显示，LLMs的表现比人类低约40%，并存在随机鹦鹉现象，表明任务的挑战源于内在困难。