T2VIndexer:一种高效文本-视频检索的生成视频索引器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于语言的搜索方法,通过双编码器和跨注意力的视觉文本变压器相结合,提高了图像和视频数据集的检索准确性和可扩展性。该方法在Flickr30K图像数据集和VATEX视频数据集上进行了验证。

🎯

关键要点

  • 本研究提出了一种基于语言的搜索方法。
  • 该方法结合了双编码器和跨注意力的视觉文本变压器。
  • 通过将视觉和文本独立映射到联合嵌入空间,提高了检索准确性和可扩展性。
  • 引入了新的细粒度跨注意力架构。
  • 结合了快速双编码器模型和缓慢但准确的变压器模型,通过蒸馏和重新排序。
  • 在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
➡️

继续阅读