ViTime:基于视觉智能的时间序列预测基础模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于Transformer模型的视频分类方法,通过提取时空标记并进行编码来处理长序列。利用预训练的图像模型和规范化模型,在较小的数据集上进行训练,并在多个视频分类基准测试中取得了最先进的结果。发布了代码以促进进一步的研究。
🎯
关键要点
- 本研究提出了一种基于纯 Transformer 模型的视频分类方法。
- 通过提取时空标记并通过 Transformer 层进行编码来处理长序列。
- 提出了一些高效的模型变体,以分解输入的空间和时间维度。
- 展示了如何有效规范化模型,并利用预训练的图像模型,在较小的数据集上进行训练。
- 在多个视频分类基准测试中取得了最先进的结果,优于基于深度 3D 卷积网络的方法。
- 发布了代码以促进进一步的研究。
🏷️
标签
➡️