💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
我们研究了在视频数据上大规模训练生成模型。通过联合训练文本条件扩散模型,我们的最大模型Sora能够生成高保真度的一分钟视频。这表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。
🎯
关键要点
-
研究了在视频数据上大规模训练生成模型。
-
联合训练文本条件扩散模型,处理不同时长、分辨率和纵横比的视频和图像。
-
利用变换器架构处理视频和图像的时空补丁。
-
最大模型Sora能够生成高保真度的一分钟视频。
-
结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前景的途径。
➡️