量子位 ·

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

文章探讨了语言模型（LLM）与视频模型在学习能力上的差异。尽管视频数据更丰富，LLM却通过简单算法展现出更复杂的认知能力。作者将AI比作“柏拉图洞穴”，指出AI只能模仿人类知识，无法自主探索。未来的目标是让AI能够直接与物理世界互动，突破对人类知识的依赖。

🎯

🔎

语言模型（LLM）通过简单的算法实现了复杂的认知能力，能够快速调用人类知识进行推理。然而，这种能力的背后是对人类思维的模仿，而非自主理解。这意味着LLM在面对未知问题时，可能缺乏真正的创新能力。

尽管视频模型拥有丰富的数据来源，但在复杂推理方面却未能取得与LLM相同的成功。这表明，单纯依赖视频数据并不足以提升AI的认知能力，反而可能导致对物理规律的理解不足。

文章提到，跨模态连接可能是解决AI“洞穴困境”的关键。通过建立视觉、语言和行动系统之间的桥梁，AI或许能够更好地理解和探索物理世界，而不仅仅依赖于人类的知识和经验。

❓

语言模型通过简单的下一词预测算法展现出复杂的认知能力，而视频模型在复杂推理方面表现较弱。

他将AI的学习过程比作柏拉图的洞穴，指出AI只能模仿人类知识，无法自主探索。

视频模型需要自主归纳物理规律，而LLM可以直接调用人类总结的知识，因此在复杂推理上表现更好。

LLM通过预测下一个词的方式进行学习，并结合强化学习微调来提升能力。

AI的长期目标是突破对人类知识的依赖，直接与物理世界互动，自主探索。

跨模态连接可能是解决AI“洞穴困境”的关键，能够帮助不同系统之间建立桥梁，促进自主探索。

🏷️