特征屏蔽建模:自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的方法,即遮蔽特征建模(MFM),用于无监督的图注意力网络(GAT)块的预训练。MFM利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征,利用MiniKinetics数据集。实验评估表明,MFM有效地改进了事件识别性能。

🎯

关键要点

  • 提出了一种新的方法:遮蔽特征建模(MFM)。
  • MFM用于无监督的图注意力网络(GAT)块的预训练。
  • MFM利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征。
  • 使用MiniKinetics数据集进行训练。
  • 将预训练的GAT块纳入自下而上的监督视频事件识别架构ViGAT。
  • MFM有效改进了事件识别性能,实验在YLI-MED数据集上进行评估。
➡️

继续阅读