融合编码的自动编码器作为时空学习耠

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种运动引导的掩蔽算法(MGM),以提高视频显著性。该算法在两个大规模视频基准中相比先前的最先进方法,为视频MAE提供了关键装备,并取得了高达+1.3%的改进。此外,该算法只使用了最多66%的训练时期,就可以获得与先前的视频MAE相等的性能。最后,该算法在多个数据集上对下游迁移学习和领域自适应任务的泛化能力比基线方法提高了高达+4.9%。

🎯

关键要点

  • 提出了一种运动引导的掩蔽算法 (MGM),利用运动矢量引导掩蔽位置。
  • 在 Kinetics-400 和 Something-Something V2 两个大规模视频基准中,MGM 相比先前方法提高了视频 MAE 的性能,改进幅度高达 +1.3%。
  • MGM 只使用最多 66% 的训练时期,就能达到与先前视频 MAE 相等的性能。
  • 在 UCF101、HMDB51 和 Diving48 数据集上,MGM 对下游迁移学习和领域自适应任务的泛化能力提高了高达 +4.9%。
➡️

继续阅读