港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

港大与字节合作推出新的视频生成模型Goku,基于校正流Transformer,支持文本生成视频和图像生成视频。该模型生成效果真实,成本低,受到网友称赞,认为其将颠覆市场。模型训练使用了大规模数据集,但尚未公开使用。

🎯

关键要点

  • 港大与字节合作推出新的视频生成模型Goku,基于校正流Transformer。

  • Goku支持文本生成视频和图像生成视频,生成效果真实且成本低。

  • Goku+是视频广告基础模型,能以比原来低100倍的成本创建广告视频。

  • Goku在定性和定量评估中取得了新SOTA成绩,网友称其颠覆性。

  • Goku采用多阶段训练策略,使用大规模高质量数据集进行训练。

  • 研究团队构建了约3600万视频和1.6亿图像的数据集,并进行了数据过滤和增强。

  • 基础设施优化包括并行策略和细粒度激活检查点技术,性能提升显著。

  • 目前官方只发布了技术报告,尚未公开模型供用户使用。

延伸问答

Goku模型的主要功能是什么?

Goku模型支持文本生成视频和图像生成视频,生成效果真实且成本低。

Goku+模型与传统广告视频制作相比有什么优势?

Goku+能以比原来低100倍的成本创建广告视频,具有显著的成本优势。

Goku模型的训练数据集有多大?

Goku模型使用了约3600万视频和1.6亿图像的数据集进行训练。

Goku模型的核心技术是什么?

Goku模型基于校正流Transformer,采用图像-视频联合VAE和全注意力Transformer架构。

Goku模型在评估中取得了什么成绩?

Goku在定性和定量评估中取得了新SOTA成绩,文本到图像生成得分为0.76,文本到视频生成得分为84.85。

Goku模型的基础设施优化有哪些?

Goku模型的基础设施优化包括并行策略、细粒度激活检查点技术和容错机制。

➡️

继续阅读