小红花·文摘

本研究提出了一种基于Transformer模型的视频分类方法，通过提取时空标记并进行编码来处理长序列。利用预训练的图像模型和规范化模型，在较小的数据集上进行训练，并在多个视频分类基准测试中取得了最先进的结果。发布了代码以促进进一步的研究。