ActNetFormer:半监督视频动作识别的 Transformer-ResNet 混合方法

原文约200字,阅读约需1分钟。发表于:

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。

本论文提出了一种基于生成对抗网络的动作识别框架,使用深度卷积生成对抗网络进行无监督学习,并通过有标签数据集进行微调,实现准确识别人类活动的半监督学习。该方法在半监督动作识别方面表现优异。

相关推荐 去reddit讨论