视频生成模型作为世界模拟器

视频生成模型作为世界模拟器

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

我们研究了在视频数据上大规模训练生成模型。通过联合训练文本条件扩散模型,我们的最大模型Sora能够生成高保真度的一分钟视频。这表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。

🎯

关键要点

  • 研究了在视频数据上大规模训练生成模型。
  • 联合训练文本条件扩散模型,处理不同时长、分辨率和纵横比的视频和图像。
  • 利用变换器架构处理视频和图像的时空补丁。
  • 最大模型Sora能够生成高保真度的一分钟视频。
  • 结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。
➡️

继续阅读