视频生成模型：构建虚拟世界的模拟器 [译]

原文中文，约9100字，阅读约需22分钟。发表于：。

我们致力于在视频数据上开展生成模型的大规模训练。具体来说，我们针对不同时长、分辨率和宽高比的视频及图像，联合训练了基于文本条件的扩散模型。我们采用了一种 Transformer 架构，这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型，Sora，能生成高质量的一分钟视频。我们的研究显示，扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

该文章介绍了一种基于文本条件的扩散模型，用于生成不同特征的视频和图像。模型采用了Transformer架构，并通过压缩视频数据和提取时空补片进行训练。研究结果显示，该模型是实现模拟物理世界的通用工具的有前途的一步。文章还介绍了Sora模型的能力和局限性，并探讨了视频模型的发展前景。