Sora 和之前 Runway 那些在架构上有啥区别呢?
原文中文,约2300字,阅读约需6分钟。发表于: 。简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。
Sora是一个扩散变压器模型,结合了Runway和Stable Diffusion的特点。它使用基于补丁的方法处理噪声输入图像并生成更清晰的版本。与GPT-4不同,GPT-4预测文本序列中的下一个标记,而Sora预测图像序列中的下一个补丁。这种创新的方法使得OpenAI能够在大量图像和视频数据上训练Sora,而无需裁剪或调整大小。扩散变压器架构和基于补丁的训练的结合产生了令人印象深刻的输出质量。由于在具有物理规则的视频上进行训练,Sora甚至可以模拟液体动力学。Sora项目受到了两篇关于可扩展扩散模型和视觉变换器的Google论文的启发。