将1对N关系分解为N个1对1关系的文本视频检索研究
原文中文,约300字,阅读约需1分钟。发表于: 。本文解决了文本视频检索(TVR)中视频与文本模态之间固有差异导致匹配不准确的问题。提出了一个新框架TV-ProxyNet,通过将传统的1对N关系转变为N个1对1关系,提高了查询的精度与覆盖范围。实验结果表明,该方法在MSRVTT和ActivityNet Captions上达到了最先进的表现,验证了其在语义映射和减少错误倾向方面的有效性。
本文提出了TV-ProxyNet框架,解决了文本视频检索中模态差异的问题。通过将1对N关系转化为N个1对1关系,提高了查询精度和覆盖范围。实验结果显示,该方法在MSRVTT和ActivityNet Captions数据集上表现出色,改善了语义映射并减少了错误。