💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
字节跳动豆包大模型团队经过8个月的研究发现,视频生成模型能够记忆训练案例,但缺乏对物理规律的真正理解,无法泛化到新场景。尽管在熟悉概念下表现良好,模型仍依赖记忆,缺乏抽象能力。
🎯
关键要点
-
字节跳动豆包大模型团队经过8个月研究,发现视频生成模型能记忆训练案例,但无法真正理解物理规律。
-
研究首次系统性实验,结论是视频生成模型缺乏抽象能力,无法泛化到新场景。
-
实验中,模型在熟悉概念下表现良好,但在未见过的速度区间生成视频时不遵循物理规律。
-
模型生成新视频时主要依赖对训练案例的记忆,无法处理新场景的物理交互。
-
如果训练视频中的概念和物体是模型熟悉的,增加训练数据复杂度可提升模型对物理规律的遵循。
-
研究团队由年轻的95后和00后组成,专注于视觉领域的基础研究,经历多次失败后确定研究思路。
-
字节跳动在大模型领域持续加大投入,招募顶尖研究人才,推动创新探索。
➡️