高效且有效的文本到视频检索:基于粗粒度到细粒度的视觉表征学习
原文中文,约300字,阅读约需1分钟。发表于: 。通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
本研究提出了一种文本到视频检索方法,通过多粒度视觉特征学习和二阶段检索体系结构,在检索效果和效率之间取得平衡。采用参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习,实现了与当前最先进方法相媲美的性能,速度快近50倍。