高效多尺度多模态瓶颈变压器用于音视频分类
原文中文,约500字,阅读约需2分钟。发表于: 。本文介绍了一种多尺度多模态转换器(MMT),利用层次化表示学习,进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合,提高动作识别准确率。
本文介绍了一种使用无标签数据学习多模态表示的框架,利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能,提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%,将VATT迁移至图像分类任务时,ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP,并展现了模型的泛化能力。