小红花·文摘

本研究探讨大型语言模型（LLMs）在颜色与词语关联方面的不足。尽管GPT-4o在视觉输入下的预测准确率最高，但仍仅约50%，显示出与人类能力之间的显著差距。

BriefGPT - AI 论文速递 ·

本文思想实验表明，大型语言模型（LLM）无法像人类一样理解概念。即使使用大量纯中文和英文文本训练同一个LLM，它也无法将英语中的“狗”概念与中文中的“狗”概念联系起来。相比之下，人类可以根据词语与物理世界的关系来处理词语，因此“理解”对于人类和LLM的含义是完全不同的。

极道 ·