MTVG: 多文本视频生成与文本到视频模型
原文中文,约500字,阅读约需2分钟。发表于: 。最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初...
研究人员提出了一种新的多文本视频生成模型,利用预训练的文本到视频转换模型进行生成。该方法通过动态噪声和最后一帧感知反演保持视觉一致性和防止重复运动或内容。实验证明该方法在生成输出方面具有出色的语义一致性和时间连续性。