T2VIndexer:一种高效文本-视频检索的生成视频索引器
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于语言的搜索方法,通过双编码器和跨注意力的视觉文本变压器相结合,提高了图像和视频数据集的检索准确性和可扩展性。该方法在Flickr30K图像数据集和VATEX视频数据集上进行了验证。
🎯
关键要点
- 本研究提出了一种基于语言的搜索方法。
- 该方法结合了双编码器和跨注意力的视觉文本变压器。
- 通过将视觉和文本独立映射到联合嵌入空间,提高了检索准确性和可扩展性。
- 引入了新的细粒度跨注意力架构。
- 结合了快速双编码器模型和缓慢但准确的变压器模型,通过蒸馏和重新排序。
- 在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
➡️