双向一对多嵌入对齐用于基于文本的人物检索
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了Text-to-Video Person Retrieval (TVPR)任务,构建了TVPReid数据集,利用Bert获取字幕表示并研究字幕与视频表示之间的关系,通过融合视觉和运动表示为基础进行视频表示,提出了TVPR网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战。在TVPReid数据集上,TVPRN获得了最佳性能表现。
🎯
关键要点
- 提出了Text-to-Video Person Retrieval (TVPR)任务。
- 构建了包含自然语言注释的TVPReid数据集。
- 利用Bert获取字幕表示,研究字幕与视频表示之间的关系。
- 通过融合视觉和运动表示进行视频表示。
- 提出了TVPR网络以解决孤立帧中模糊或遗漏的运动细节问题。
- TVPRN在TVPReid数据集上获得最佳性能表现。
➡️