知乎每日精选 ·

技术神秘化的去魅：Sora关键技术逆向工程图解

💡 原文中文，约25100字，阅读约需60分钟。

📝

内容提要

本文介绍了视频生成模型Sora的结构和训练过程，包括采用的TECO模型、Diffusion Model和Spacetime Latent Patch等。Sora基于Transformer网络，旨在生成高质量、长时一致性的视频。训练过程包括两阶段，支持多种方式的视频生成。文章还讨论了Sora作为物理世界模拟器的可能性。

🎯

关键要点

Sora生成的视频效果优秀，可能是AGI发展历程上的里程碑。
Sora的整体结构包括TECO模型、Diffusion Model和Spacetime Latent Patch。
Sora的Visual Encoder-Decoder采用TECO模型，重点在于维护长时一致性。
Sora的Patch部分称为Spacetime Latent Patch，支持可变分辨率和长宽比的视频。
Diffusion Model的基本原理是通过加噪和去噪过程生成视频。
Sora的训练过程分为两阶段，支持多种视频生成方式。
Sora可能采用双向训练策略，以维护生成内容的连贯性和一致性。
Sora的合成数据制作过程类似于DALLE 3，通过人工标注和模型生成高质量数据。
Sora的长时一致性可能通过暴力手段或FDM方法来实现。
Sora是否能作为物理世界模拟器仍存在争议，取决于技术条件和实现能力。

❓

延伸问答

Sora的主要技术结构是什么？

Sora的主要技术结构包括TECO模型、Diffusion Model和Spacetime Latent Patch，旨在生成高质量、长时一致性的视频。

Sora如何实现视频的长时一致性？

Sora可能通过暴力手段或FDM方法来维护生成视频的长时一致性，确保内容在时间上的连贯性。

Sora的训练过程是怎样的？

Sora的训练过程分为两阶段，首先是视觉编码器-解码器的自监督训练，接着是Diffusion Model的训练，支持多种视频生成方式。

Sora是否能作为物理世界模拟器？

目前的技术条件下，Sora很难构造出完整的物理世界模拟器，这更多是OpenAI对其未来的愿景。

Diffusion Model在Sora中的作用是什么？

Diffusion Model在Sora中用于生成视频，通过加噪和去噪的过程来实现高质量视频的生成。

Sora如何处理不同分辨率和长宽比的视频生成？

Sora采用NaVIT方法支持可变分辨率和长宽比的视频生成，通过特殊设计的Patch处理来实现。

🏷️