💡
原文日文,约5500字,阅读约需13分钟。
📝
内容提要
视频生成模型如Sora能够生成符合常识的视频,但尚未掌握物理规律。研究表明,这些模型无法抽象出普遍的物理规则,在未见过的场景中表现不佳,主要依赖记忆和案例模仿。尽管增加数据和模型规模可以改善表现,但对新场景的推理能力提升有限。
🎯
关键要点
-
视频生成模型如Sora能够生成符合常识的视频,但尚未掌握物理规律。
-
Yann LeCun认为基于文本提示生成的视频并不代表模型理解物理世界。
-
François Chollet质疑Sora的物理模型是否准确,能否泛化到新情况。
-
字节豆包大模型团队的研究表明,模型无法抽象出普遍的物理规则。
-
视频生成模型像只会抄作业的学生,依赖记忆和案例模仿。
-
即使增加数据和模型规模,模型在新场景中的推理能力提升有限。
-
研究发现,模型在分布外泛化(OOD)表现不佳,扩展数据和模型规模影响有限。
-
组合泛化场景中,模型在未见过的组合中展现出更强的泛化能力。
-
模型依赖记忆和案例模仿,而非抽象出普遍的物理规则。
-
视频生成模型在生成物体运动状态时更依赖颜色而非形状。
-
视频表征的局限性导致在细粒度物理建模方面出现显著误差。
-
研究团队在探索过程中经历了多次试错,最终确认模型依赖样本匹配。
➡️