小红花·文摘

本文提出了Action Graph结构实现多协调时间动作相关视频生成，AG2Vid模型分离运动和外观特征，经CATER和Something-Something V2数据集训练和评估，生成视频视觉质量和语义一致性更好，具有零样本能力。