猿猴仿效:利用自注意力在运动扩散中实现零样本运动转移
内容提要
本文介绍了GazeMoDiff、Motion-Zero和MoDiff等新型运动生成模型,旨在提高视频中人体动作的预测和控制精度。这些模型结合时空特征、注意力机制和无监督学习,生成高质量、自然的运动序列,适用于虚拟现实和视频编辑任务。
关键要点
-
GazeMoDiff是一种新的注视引导去噪扩散模型,通过学习眼球注视和人体运动之间的时空相关性,生成逼真的人体运动,实验证明其在平均位移误差上超过了现有方法。
-
Motion-Zero是一种新颖的零样条移动物体轨迹控制框架,通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性,利用U-net的注意力图确保移动物体的位置和空间一致性。
-
本研究提出的运动特征(MOFT)实现了无需训练的视频运动控制框架,为生成自然逼真的运动提供了竞争性能和架构无关的见解。
-
MotionEditor是一种扩散模型,用于视频动作编辑,通过引入内容感知的运动适配器和两分支架构实现编辑过程中保留原始背景和主角外貌。
-
MoDiff是一个基于自回归概率扩散模型的运动序列生成模型,结合跨模式Transformer编码器和基于Transformer的解码器,以生成控制时序依赖性的动作。
-
MotionMix是一种弱监督扩散模型,能够控制3D人类动作生成,在文本到动作、动作到动作和音乐到舞蹈任务中达到最先进的性能。
-
MoVideo框架考虑视频深度和光流,通过稀疏-时间扩散模型生成视频深度和光流,实现文本到视频和图像到视频生成中的最先进结果。
-
StoryDiffusion框架通过引入自我关注计算方式和语义空间时间运动预测模块,能够生成包含丰富内容的一致图像或视频,用于描述基于文本的故事。
延伸问答
GazeMoDiff模型的主要功能是什么?
GazeMoDiff模型通过学习眼球注视和人体运动之间的时空相关性,生成逼真的人体运动,并在平均位移误差上超过了现有方法。
Motion-Zero框架如何改善移动物体的稳定性?
Motion-Zero框架通过提供基于位置的先验和利用U-net的注意力图,确保移动物体的位置和空间一致性,从而改善其外观稳定性和位置准确性。
什么是运动特征(MOFT),它的作用是什么?
运动特征(MOFT)是一种无需训练的视频运动控制框架,旨在生成自然逼真的运动,并提供竞争性能和架构无关的见解。
MotionEditor模型在视频编辑中有什么优势?
MotionEditor模型通过引入内容感知的运动适配器和两分支架构,能够在编辑过程中保留原始背景和主角外貌。
MoDiff模型是如何生成运动序列的?
MoDiff模型结合跨模式Transformer编码器和基于Transformer的解码器,以自回归概率扩散模型生成控制时序依赖性的动作序列。
StoryDiffusion框架的主要创新点是什么?
StoryDiffusion框架通过引入自我关注计算方式和语义空间时间运动预测模块,能够生成包含丰富内容的一致图像或视频,用于描述基于文本的故事。