MuLTI:高效视频与语言理解
原文中文,约6600字,阅读约需16分钟。发表于: 。多模态理解模型具有广泛的应用,比如多标签分类、视频问答(videoQA)和文本视频检索等。现有的方法已经在视频和语言理解方面取得了重大进展,然而,他们仍然面临两个巨大的挑战:无法充分的利用现有的特征;训练时巨大的GPU内存消耗。我们提出了MuLTI,这是一种高度准确高效的视频和语言理解模型,可以实现高效有效的特征融合和对下游任务的快速适应。本文详细介绍基于MuLTI实现高效视频与语言理解。
MuLTI是一种高效的视频和语言理解框架,使用文本引导多路采样器来压缩文本特征和融合多模态特征,以提高性能和降低内存成本。文章还提出了多选建模(MCM)预训练任务,用于弥合预训练任务和下游任务之间的差距。实验结果显示,MuLTI在视频问答和文本视频检索任务上表现出色。未来工作包括音频探索和计算量优化。