一种视频动作检测的语法组合模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了Action Graph结构实现多协调时间动作相关视频生成,AG2Vid模型分离运动和外观特征,经CATER和Something-Something V2数据集训练和评估,生成视频视觉质量和语义一致性更好,具有零样本能力。

🎯

关键要点

  • 首次提出 Action Graph 结构用于多协调时间动作相关视频生成。
  • AG2Vid 模型实现了运动和外观特征的分离。
  • 引入调度机制以协助视频生成。
  • 经过 CATER 和 Something-Something V2 数据集的训练和评估,生成的视频具有更好的视觉质量和语义一致性。
  • 该模型展现了零样本能力,能够生成已学习动作的新组合。
➡️

继续阅读