MotionClone 是一种无需训练的框架,通过时间注意力机制克隆运动以控制文本到视频生成,提升生成模型的空间关系和随机应变能力。研究探讨了视频与图片的信息性差异,提出了基于文本描述的运动检索任务,利用姿态估计和 Motion Transformer 模型进行内容检索,并提出了 KV Inversion 方法解决动作编辑问题,引入 Visual-Dynamic Injection 方法增强视频时刻理解。
完成下面两步后,将自动完成登录并继续当前操作。