量子位 ·

港大字节最新视频生成模型刷屏！网友直接RIP市场营销，Sora也不香了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

港大与字节合作推出新的视频生成模型Goku，基于校正流Transformer，支持文本生成视频和图像生成视频。该模型生成效果真实，成本低，受到网友称赞，认为其将颠覆市场。模型训练使用了大规模数据集，但尚未公开使用。

🎯

🔎

Goku模型采用了校正流Transformer架构，结合图像-视频联合生成的技术，展现出更快的收敛速度和更强的生成能力。这种技术的创新使得生成的视频和图像在质量上有了显著提升，尤其在广告制作等领域，能够以更低的成本实现高质量的内容创作。

Goku的推出可能会对现有的视频制作市场造成冲击，尤其是对传统广告制作和内容创作者。虽然其低成本和高效率的优势明显，但也可能导致市场竞争加剧，甚至影响一些小型创作者的生存空间。用户在享受技术带来的便利时，也需关注行业的变化与挑战。

Goku模型的成功离不开其背后庞大的数据集和精细的训练策略。研究团队构建了3600万视频和1.6亿图像的数据集，并进行了严格的数据过滤和增强。这一过程确保了模型的训练质量，用户在使用类似技术时，应重视数据的质量和多样性，以提升生成效果。

❓

Goku模型支持文本生成视频和图像生成视频，生成效果真实且成本低。

Goku+能以比原来低100倍的成本创建广告视频，具有显著的成本优势。

Goku模型使用了约3600万视频和1.6亿图像的数据集进行训练。

Goku模型基于校正流Transformer，采用图像-视频联合VAE和全注意力Transformer架构。

Goku在定性和定量评估中取得了新SOTA成绩，文本到图像生成得分为0.76，文本到视频生成得分为84.85。

Goku模型的基础设施优化包括并行策略、细粒度激活检查点技术和容错机制。

🏷️