文本 - 视频检索中的单查询后处理的 Sinkhorn 变换

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究使用双编码器和跨注意力的视觉文本变压器方法进行基于语言的搜索,提高了检索准确性和可扩展性。在Flickr30K图像数据集和VATEX视频数据集上进行了验证。

🎯

关键要点

  • 本研究使用双编码器方法和跨注意力的视觉文本变压器方法进行基于语言的搜索。
  • 研究旨在提高检索准确性和可扩展性。
  • 引入了新的细粒度跨注意力架构。
  • 结合了快速双编码器模型和缓慢但准确的变压器模型,通过蒸馏和重新排序。
  • 在Flickr30K图像数据集和VATEX视频数据集上进行了验证。
➡️

继续阅读