机器之心 ·

LeCun赞同！类Sora模型是否能理解物理规律？字节豆包大模型团队的系统研究揭示

💡 原文日文，约5500字，阅读约需13分钟。

📝

内容提要

视频生成模型如Sora能够生成符合常识的视频，但尚未掌握物理规律。研究表明，这些模型无法抽象出普遍的物理规则，在未见过的场景中表现不佳，主要依赖记忆和案例模仿。尽管增加数据和模型规模可以改善表现，但对新场景的推理能力提升有限。

🎯

🔎

尽管视频生成模型如Sora在生成符合常识的视频方面表现出色，但其对物理规律的理解仍然存在显著局限。这意味着在实际应用中，模型可能无法准确模拟复杂的物理场景，导致生成结果与现实不符，尤其是在未见过的场景中。这种局限性可能影响模型在科学研究、教育等领域的应用效果。

研究表明，简单地增加数据量和模型规模并不能有效提升模型在分布外泛化（OOD）场景中的推理能力。这提示我们，在训练视频生成模型时，除了关注数据量的扩展，更应重视数据的多样性和组合复杂性，以提高模型的泛化能力。

在组合泛化场景中，模型展现出更强的泛化能力，尤其是在训练集覆盖了更多组合场景时。这表明，通过设计更复杂的训练数据，模型能够更好地理解物理规律。这一发现为未来视频生成模型的优化提供了新的思路，强调了组合场景的重要性。

❓

Sora模型无法抽象出普遍的物理规则，主要依赖记忆和案例模仿，导致在未见过的场景中表现不佳。

Yann LeCun认为基于文本提示生成的视频并不代表模型真正理解物理世界，且这种建模方式注定要失败。

研究发现即使增加模型参数和训练数据，模型仍无法理解物理规律，且在新场景中的推理能力提升有限。

模型在分布外泛化（OOD）表现不佳，扩展数据和模型规模对提升推理能力几乎没有影响。

通过生成视频并检验其运动和碰撞是否符合力学定律来判断模型是否理解物理规律。

在组合泛化场景中，模型能够展现出更强的泛化能力，尤其是在训练集覆盖更多组合场景时。

🏷️