本研究探讨大型语言模型(LLMs)在颜色与词语关联方面的不足。尽管GPT-4o在视觉输入下的预测准确率最高,但仍仅约50%,显示出与人类能力之间的显著差距。
本文思想实验表明,大型语言模型(LLM)无法像人类一样理解概念。即使使用大量纯中文和英文文本训练同一个LLM,它也无法将英语中的“狗”概念与中文中的“狗”概念联系起来。相比之下,人类可以根据词语与物理世界的关系来处理词语,因此“理解”对于人类和LLM的含义是完全不同的。
完成下面两步后,将自动完成登录并继续当前操作。