MUSE:高效多尺度学习的文本-视频检索模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有文本-视频检索方法中缺乏多尺度表示的问题,提出了一种高效的多尺度学习模型MUSE。通过新的特征金字塔结构和Mamba架构,MUSE能够以线性计算复杂度生成丰富的上下文信息,从而在多个基准测试中显著提升检索性能。
CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升了检索准确性。
本研究针对现有文本-视频检索方法中缺乏多尺度表示的问题,提出了一种高效的多尺度学习模型MUSE。通过新的特征金字塔结构和Mamba架构,MUSE能够以线性计算复杂度生成丰富的上下文信息,从而在多个基准测试中显著提升检索性能。
CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升了检索准确性。