高效且有效的文本到视频检索:基于粗粒度到细粒度的视觉表征学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种文本到视频检索方法,通过多粒度视觉特征学习和二阶段检索体系结构,在检索效果和效率之间取得平衡。采用参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习,实现了与当前最先进方法相媲美的性能,速度快近50倍。
🎯
关键要点
- 提出了一种文本到视频检索方法
- 通过多粒度视觉特征学习和二阶段检索体系结构实现效果与效率的平衡
- 采用参数无关的文本门控交互块优化跨模态表示学习
- 引入额外的Pearson约束以提升性能
- 实现了与当前最先进方法相媲美的性能
- 检索速度快近50倍
➡️