量子位 ·

李飞飞一年前究竟说了啥？怎么又火了

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

李飞飞指出，大语言模型在理解物理世界方面存在局限，因其主要依赖一维语言信号，而物理世界是三维的。尽管模型能处理语言任务，但在空间智能和物理推理上表现不佳，无法真正理解物理现象。这引发了对模型结合物理与多模态理解的讨论。

🎯

🔎

李飞飞指出，大语言模型在理解物理世界时存在根本性局限，主要因为其依赖一维语言信号，而物理世界是三维的。这种局限使得模型在空间智能和物理推理方面表现不佳，无法真正理解物理现象。读者应关注这一点，以便更好地理解当前AI技术的边界。

通过对比大语言模型与人类儿童在物理任务中的表现，研究显示模型在简单任务上尚可，但在复杂任务中表现明显不足。这一结果强调了模型在物理推理和空间智能方面的不足，提示开发者在设计AI系统时需考虑多模态理解的必要性。

文章中提到的辩论显示，部分观点认为语言描述现实的能力可能优于感知。这一讨论引发了对AI未来发展的思考，尤其是如何结合语言与感知来提升模型的理解能力。读者可以关注这一领域的研究进展，以便把握AI技术的演变方向。

❓

李飞飞认为大语言模型在理解物理世界方面存在局限，主要依赖一维语言信号，而物理世界是三维的，因此在空间智能和物理推理上表现不佳。

实验表明，基于语言信号训练的模型在物理任务中的表现远不及人类儿童，尤其在处理稍难的任务时表现不佳。

因为大语言模型的底层表示是一维的，处理空间智能问题时与物理世界的三维本质存在本质差异，导致信息损失。

李飞飞的观点引发了关于语言模型是否能真正理解物理世界的讨论，有人反驳她的观点，认为语言描述现实的能力可能优于感知。

在视觉任务测试中，大模型的正确率最高仅为51%，远低于人类的95.7%，显示出其在视觉感知上的不足。

未来大语言模型的发展可能会扩展到结合物理与多模态理解，以更好地处理三维数据和空间智能问题。

🏷️