港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
港大与字节合作推出新的视频生成模型Goku,基于校正流Transformer,支持文本生成视频和图像生成视频。该模型生成效果真实,成本低,受到网友称赞,认为其将颠覆市场。模型训练使用了大规模数据集,但尚未公开使用。
🎯
关键要点
-
港大与字节合作推出新的视频生成模型Goku,基于校正流Transformer。
-
Goku支持文本生成视频和图像生成视频,生成效果真实且成本低。
-
Goku+是视频广告基础模型,能以比原来低100倍的成本创建广告视频。
-
Goku在定性和定量评估中取得了新SOTA成绩,网友称其颠覆性。
-
Goku采用多阶段训练策略,使用大规模高质量数据集进行训练。
-
研究团队构建了约3600万视频和1.6亿图像的数据集,并进行了数据过滤和增强。
-
基础设施优化包括并行策略和细粒度激活检查点技术,性能提升显著。
-
目前官方只发布了技术报告,尚未公开模型供用户使用。
❓
延伸问答
Goku模型的主要功能是什么?
Goku模型支持文本生成视频和图像生成视频,生成效果真实且成本低。
Goku+模型与传统广告视频制作相比有什么优势?
Goku+能以比原来低100倍的成本创建广告视频,具有显著的成本优势。
Goku模型的训练数据集有多大?
Goku模型使用了约3600万视频和1.6亿图像的数据集进行训练。
Goku模型的核心技术是什么?
Goku模型基于校正流Transformer,采用图像-视频联合VAE和全注意力Transformer架构。
Goku模型在评估中取得了什么成绩?
Goku在定性和定量评估中取得了新SOTA成绩,文本到图像生成得分为0.76,文本到视频生成得分为84.85。
Goku模型的基础设施优化有哪些?
Goku模型的基础设施优化包括并行策略、细粒度激活检查点技术和容错机制。
➡️