单一视觉变换器的图像和视频联合学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于纯Transformer模型的视频分类方法,通过提取时空标记并进行编码。通过模型变体处理长序列,利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果,发布了代码以促进进一步的研究。
🎯
关键要点
-
本研究提出了一种基于纯Transformer模型的视频分类方法。
-
通过提取时空标记并通过Transformer层进行编码。
-
提出高效的模型变体以处理长序列,分解空间和时间维度。
-
展示了如何在小数据集上有效训练,利用预训练的图像模型。
-
在多个视频分类基准测试中实现了最先进的结果,优于深度3D卷积网络的方法。
-
发布了代码以促进进一步的研究。
🏷️
标签
➡️