小红花·文摘

本研究提出了一种基于纯Transformer模型的视频分类方法，通过提取时空标记并进行编码。通过模型变体处理长序列，利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果，发布了代码以促进进一步的研究。