世界模拟器中的视频生成模型
原文英文,约200词,阅读约需1分钟。发表于: 。We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and...
这篇技术报告介绍了将各种视觉数据转化为统一表示的方法,用于大规模生成模型的训练,并对Sora的能力和限制进行了评估。Sora是一种通用模型,可以生成不同持续时间、宽高比和分辨率的视频和图像。