字节版Sora火爆24小时,同名论文再次被热议
内容提要
字节版Sora推出Seaweed和PixelDance视频模型,支持文生和图生视频,时长可达10秒。PixelDance具备多主体交互和多镜头一致性,能在一句提示词内切换多个镜头。其论文入选CVPR 2024,提出基于潜在扩散模型的方法,通过图像和视频联合训练,保持高保真生成。团队在WebVid-10M数据集上训练,并扩展无水印视频数据集,提升生成效果。产品已在火山引擎测试。
关键要点
-
字节版Sora推出Seaweed和PixelDance视频模型,支持文生和图生视频,时长可达10秒。
-
PixelDance具备多主体交互和多镜头一致性,能在一句提示词内切换多个镜头。
-
PixelDance支持多种风格比例,能够讲述完整故事。
-
字节团队的PixelDance论文入选CVPR 2024,提出基于潜在扩散模型的方法。
-
模型通过图像和视频联合训练,保持高保真生成能力。
-
PixelDance使用首帧和尾帧图像指令与文本指令进行视频生成。
-
团队在WebVid-10M数据集上训练,并扩展无水印视频数据集,提升生成效果。
-
PixelDance在训练中引入噪声和随机丢弃尾帧指令,提高模型鲁棒性。
-
产品已在火山引擎测试,未来将逐步开放给所有用户。
延伸问答
字节版Sora的PixelDance模型有什么主要特点?
PixelDance模型支持多主体交互和多镜头一致性,能够在一句提示词内切换多个镜头,时长可达10秒。
PixelDance模型是如何生成视频的?
PixelDance通过结合首帧和尾帧图像指令与文本指令,利用潜在扩散模型进行视频生成。
字节团队在PixelDance的训练中使用了哪些数据集?
团队在WebVid-10M数据集上训练,并扩展了50万个无水印视频片段以提升生成效果。
PixelDance模型如何提高生成视频的鲁棒性?
模型在训练中引入噪声和随机丢弃尾帧指令,以减少对指令的依赖性并提高鲁棒性。
PixelDance模型的论文入选了哪个会议?
PixelDance的论文入选了CVPR 2024会议。
字节版Sora的产品测试情况如何?
产品已在火山引擎进行企业用户的邀请测试,未来将逐步开放给所有用户。