量子位 ·

字节版Sora火爆24小时，同名论文再次被热议

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

字节版Sora推出Seaweed和PixelDance视频模型，支持文生和图生视频，时长可达10秒。PixelDance具备多主体交互和多镜头一致性，能在一句提示词内切换多个镜头。其论文入选CVPR 2024，提出基于潜在扩散模型的方法，通过图像和视频联合训练，保持高保真生成。团队在WebVid-10M数据集上训练，并扩展无水印视频数据集，提升生成效果。产品已在火山引擎测试。

🎯

关键要点

字节版Sora推出Seaweed和PixelDance视频模型，支持文生和图生视频，时长可达10秒。
PixelDance具备多主体交互和多镜头一致性，能在一句提示词内切换多个镜头。
PixelDance支持多种风格比例，能够讲述完整故事。
字节团队的PixelDance论文入选CVPR 2024，提出基于潜在扩散模型的方法。
模型通过图像和视频联合训练，保持高保真生成能力。
PixelDance使用首帧和尾帧图像指令与文本指令进行视频生成。
团队在WebVid-10M数据集上训练，并扩展无水印视频数据集，提升生成效果。
PixelDance在训练中引入噪声和随机丢弃尾帧指令，提高模型鲁棒性。
产品已在火山引擎测试，未来将逐步开放给所有用户。

❓

延伸问答

字节版Sora的PixelDance模型有什么主要特点？

PixelDance模型支持多主体交互和多镜头一致性，能够在一句提示词内切换多个镜头，时长可达10秒。

PixelDance模型是如何生成视频的？

PixelDance通过结合首帧和尾帧图像指令与文本指令，利用潜在扩散模型进行视频生成。

字节团队在PixelDance的训练中使用了哪些数据集？

团队在WebVid-10M数据集上训练，并扩展了50万个无水印视频片段以提升生成效果。

PixelDance模型如何提高生成视频的鲁棒性？

模型在训练中引入噪声和随机丢弃尾帧指令，以减少对指令的依赖性并提高鲁棒性。

PixelDance模型的论文入选了哪个会议？

PixelDance的论文入选了CVPR 2024会议。

字节版Sora的产品测试情况如何？

产品已在火山引擎进行企业用户的邀请测试，未来将逐步开放给所有用户。

🏷️