💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
我们研究了在视频数据上大规模训练生成模型。通过联合训练文本条件扩散模型,我们的最大模型Sora能够生成高保真度的一分钟视频。这表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。
🎯
关键要点
- 研究了在视频数据上大规模训练生成模型。
- 联合训练文本条件扩散模型,处理不同时长、分辨率和纵横比的视频和图像。
- 利用变换器架构处理视频和图像的时空补丁。
- 最大模型Sora能够生成高保真度的一分钟视频。
- 结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。
➡️