GQE:用于增强文本-视频检索的广义查询扩展
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了文本与视频之间的语义差距,提出了一种数据驱动的广义查询扩展(GQE)方法,以提高文本-视频检索系统的有效性。通过对视频进行短片段的自适应划分并使用零样本字幕生成,GQE丰富了训练数据集,优化了检索性能,且在多个基准测试中达到了最先进的表现。
本文介绍了M2-RAAP,一种用于零-shot视频文本检索的多模态配方。通过数据过滤、文本重写、关键帧输入和辅助字幕引导策略,M2-RAAP在减少数据量和时间消耗的同时,取得了优越的性能,建立了新的SOTA。