本研究提出了一种基于纯Transformer模型的视频分类方法,通过提取时空标记并进行编码。通过模型变体处理长序列,利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果,发布了代码以促进进一步的研究。
完成下面两步后,将自动完成登录并继续当前操作。