本研究提出了一种基于Transformer模型的视频分类方法,通过提取时空标记并进行编码来处理长序列。利用预训练的图像模型和规范化模型,在较小的数据集上进行训练,并在多个视频分类基准测试中取得了最先进的结果。发布了代码以促进进一步的研究。
完成下面两步后,将自动完成登录并继续当前操作。