类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

字节跳动豆包大模型团队经过8个月的研究发现,视频生成模型能够记忆训练案例,但缺乏对物理规律的真正理解,无法泛化到新场景。尽管在熟悉概念下表现良好,模型仍依赖记忆,缺乏抽象能力。

🎯

关键要点

  • 字节跳动豆包大模型团队经过8个月研究,发现视频生成模型能记忆训练案例,但无法真正理解物理规律。

  • 研究首次系统性实验,结论是视频生成模型缺乏抽象能力,无法泛化到新场景。

  • 实验中,模型在熟悉概念下表现良好,但在未见过的速度区间生成视频时不遵循物理规律。

  • 模型生成新视频时主要依赖对训练案例的记忆,无法处理新场景的物理交互。

  • 如果训练视频中的概念和物体是模型熟悉的,增加训练数据复杂度可提升模型对物理规律的遵循。

  • 研究团队由年轻的95后和00后组成,专注于视觉领域的基础研究,经历多次失败后确定研究思路。

  • 字节跳动在大模型领域持续加大投入,招募顶尖研究人才,推动创新探索。

➡️

继续阅读