ActNetFormer:半监督视频动作识别的 Transformer-ResNet 混合方法 原文约200字,阅读约需1分钟。发表于:2024-04-09T00:00:00Z。 提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。 本论文提出了一种基于生成对抗网络的动作识别框架,使用深度卷积生成对抗网络进行无监督学习,并通过有标签数据集进行微调,实现准确识别人类活动的半监督学习。该方法在半监督动作识别方面表现优异。 resnet 准确识别 动作识别 半监督 半监督学习 无监督学习 生成对抗网络