小红花·文摘

MotionClone 是一种无需训练的框架，通过时间注意力机制克隆运动以控制文本到视频生成，提升生成模型的空间关系和随机应变能力。研究探讨了视频与图片的信息性差异，提出了基于文本描述的运动检索任务，利用姿态估计和 Motion Transformer 模型进行内容检索，并提出了 KV Inversion 方法解决动作编辑问题，引入 Visual-Dynamic Injection 方法增强视频时刻理解。