字节版Sora火爆24小时,同名论文再次被热议

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

字节版Sora推出Seaweed和PixelDance视频模型,支持文生和图生视频,时长可达10秒。PixelDance具备多主体交互和多镜头一致性,能在一句提示词内切换多个镜头。其论文入选CVPR 2024,提出基于潜在扩散模型的方法,通过图像和视频联合训练,保持高保真生成。团队在WebVid-10M数据集上训练,并扩展无水印视频数据集,提升生成效果。产品已在火山引擎测试。

🎯

关键要点

  • 字节版Sora推出Seaweed和PixelDance视频模型,支持文生和图生视频,时长可达10秒。
  • PixelDance具备多主体交互和多镜头一致性,能在一句提示词内切换多个镜头。
  • PixelDance支持多种风格比例,能够讲述完整故事。
  • 字节团队的PixelDance论文入选CVPR 2024,提出基于潜在扩散模型的方法。
  • 模型通过图像和视频联合训练,保持高保真生成能力。
  • PixelDance使用首帧和尾帧图像指令与文本指令进行视频生成。
  • 团队在WebVid-10M数据集上训练,并扩展无水印视频数据集,提升生成效果。
  • PixelDance在训练中引入噪声和随机丢弃尾帧指令,提高模型鲁棒性。
  • 产品已在火山引擎测试,未来将逐步开放给所有用户。
➡️

继续阅读