本研究提出了一种双阶段训练方法,利用预训练的文本到图像模型生成可编辑的姿态可控字符视频。通过稳定的视频扩散和人体姿态控制,VividPose 展现了出色的性能和泛化能力,并介绍了多种姿态转移和估计方法,展示了在时尚视频和人体姿态检测中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。