本文提出了Action Graph结构实现多协调时间动作相关视频生成,AG2Vid模型分离运动和外观特征,经CATER和Something-Something V2数据集训练和评估,生成视频视觉质量和语义一致性更好,具有零样本能力。
完成下面两步后,将自动完成登录并继续当前操作。