单一视觉变换器的图像和视频联合学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于纯Transformer模型的视频分类方法,通过提取时空标记并进行编码。通过模型变体处理长序列,利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果,发布了代码以促进进一步的研究。

🎯

关键要点

  • 本研究提出了一种基于纯Transformer模型的视频分类方法。

  • 通过提取时空标记并通过Transformer层进行编码。

  • 提出高效的模型变体以处理长序列,分解空间和时间维度。

  • 展示了如何在小数据集上有效训练,利用预训练的图像模型。

  • 在多个视频分类基准测试中实现了最先进的结果,优于深度3D卷积网络的方法。

  • 发布了代码以促进进一步的研究。

➡️

继续阅读