小红花·文摘

本文介绍了一种使用无标签数据学习多模态表示的框架，利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能，提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%，将VATT迁移至图像分类任务时，ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP，并展现了模型的泛化能力。