双向一对多嵌入对齐用于基于文本的人物检索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了Text-to-Video Person Retrieval (TVPR)任务,构建了TVPReid数据集,利用Bert获取字幕表示并研究字幕与视频表示之间的关系,通过融合视觉和运动表示为基础进行视频表示,提出了TVPR网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战。在TVPReid数据集上,TVPRN获得了最佳性能表现。

🎯

关键要点

  • 提出了Text-to-Video Person Retrieval (TVPR)任务。
  • 构建了包含自然语言注释的TVPReid数据集。
  • 利用Bert获取字幕表示,研究字幕与视频表示之间的关系。
  • 通过融合视觉和运动表示进行视频表示。
  • 提出了TVPR网络以解决孤立帧中模糊或遗漏的运动细节问题。
  • TVPRN在TVPReid数据集上获得最佳性能表现。
➡️

继续阅读