一种视频动作检测的语法组合模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了Action Graph结构实现多协调时间动作相关视频生成,AG2Vid模型分离运动和外观特征,经CATER和Something-Something V2数据集训练和评估,生成视频视觉质量和语义一致性更好,具有零样本能力。
🎯
关键要点
- 首次提出 Action Graph 结构用于多协调时间动作相关视频生成。
- AG2Vid 模型实现了运动和外观特征的分离。
- 引入调度机制以协助视频生成。
- 经过 CATER 和 Something-Something V2 数据集的训练和评估,生成的视频具有更好的视觉质量和语义一致性。
- 该模型展现了零样本能力,能够生成已学习动作的新组合。
🏷️
标签
➡️