月球计划:以多模态条件实现可控视频生成和编辑
原文中文,约300字,阅读约需1分钟。发表于: 。这项研究展示了一种新的视频生成模型 Moonshot,该模型同时考虑图像和文本的多模态输入,在控制视频的外观和几何结构方面具有更好的能力,并通过与预训练图像 ControlNet 模块集成,展现了较现有模型更优的视觉质量和时间一致性,可以用于个性化视频生成、图像动画和视频编辑等多种生成应用。
Moonshot是一种新的视频生成模型,同时考虑图像和文本的多模态输入,具有更好的外观和几何结构控制能力。与预训练图像ControlNet模块集成后,展现了较现有模型更优的视觉质量和时间一致性。可用于个性化视频生成、图像动画和视频编辑等多种生成应用。