特征屏蔽建模:自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的方法,即遮蔽特征建模(MFM),用于无监督的图注意力网络(GAT)块的预训练。MFM利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征,利用MiniKinetics数据集。实验评估表明,MFM有效地改进了事件识别性能。
🎯
关键要点
- 提出了一种新的方法:遮蔽特征建模(MFM)。
- MFM用于无监督的图注意力网络(GAT)块的预训练。
- MFM利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征。
- 使用MiniKinetics数据集进行训练。
- 将预训练的GAT块纳入自下而上的监督视频事件识别架构ViGAT。
- MFM有效改进了事件识别性能,实验在YLI-MED数据集上进行评估。
➡️