高效多尺度多模态瓶颈变压器用于音视频分类
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种使用无标签数据学习多模态表示的框架,利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能,提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%,将VATT迁移至图像分类任务时,ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP,并展现了模型的泛化能力。
🎯
关键要点
-
提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的Transformer架构。
-
通过多模态对比损失训练Video-Audio-Text Transformer (VATT),提取丰富的多模态表示。
-
VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中评估性能。
-
VATT的视觉Transformer在Kinetics-400、Kinetics-600、Kinetics-700和Moments in Time上分别实现了82.1%、83.6%、72.7%和41.1%的最高准确率。
-
VATT迁移至图像分类任务时,ImageNet的最高准确率为78.7%。
-
VATT的音频Transformer在AudioSet上实现了39.4%的mAP,展现了模型的泛化能力。
🏷️
标签
➡️