零样学习的基于文本驱动运动转换的时空扩散特征
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种新的文本驱动运动转换方法,通过合成一个符合目标对象和场景描述的输入文本的视频,同时保持输入视频的运动和场景布局。
本文介绍了一种优先级中心的M2DM模型,利用基于Transformer的VQ-VAE得出离散的动作表示。该模型通过自注意机制和正则化项抵消代码坍塌,并采用噪声调度方式确定动作标记的重要性。实验证实该模型在保真度和多样性方面超过现有技术,尤其对于复杂的文本描述。
我们提出了一种新的文本驱动运动转换方法,通过合成一个符合目标对象和场景描述的输入文本的视频,同时保持输入视频的运动和场景布局。
本文介绍了一种优先级中心的M2DM模型,利用基于Transformer的VQ-VAE得出离散的动作表示。该模型通过自注意机制和正则化项抵消代码坍塌,并采用噪声调度方式确定动作标记的重要性。实验证实该模型在保真度和多样性方面超过现有技术,尤其对于复杂的文本描述。