ViTime:基于视觉智能的时间序列预测基础模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于Transformer模型的视频分类方法,通过提取时空标记并进行编码来处理长序列。利用预训练的图像模型和规范化模型,在较小的数据集上进行训练,并在多个视频分类基准测试中取得了最先进的结果。发布了代码以促进进一步的研究。

🎯

关键要点

  • 本研究提出了一种基于纯 Transformer 模型的视频分类方法。
  • 通过提取时空标记并通过 Transformer 层进行编码来处理长序列。
  • 提出了一些高效的模型变体,以分解输入的空间和时间维度。
  • 展示了如何有效规范化模型,并利用预训练的图像模型,在较小的数据集上进行训练。
  • 在多个视频分类基准测试中取得了最先进的结果,优于基于深度 3D 卷积网络的方法。
  • 发布了代码以促进进一步的研究。
➡️

继续阅读