单一视觉变换器的图像和视频联合学习
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
本研究提出了一种基于纯Transformer模型的视频分类方法,通过提取时空标记并进行编码。通过模型变体处理长序列,利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果,发布了代码以促进进一步的研究。
我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
本研究提出了一种基于纯Transformer模型的视频分类方法,通过提取时空标记并进行编码。通过模型变体处理长序列,利用预训练的图像模型在小数据集上进行训练。在多个基准测试中实现了最先进的结果,发布了代码以促进进一步的研究。