将1对N关系分解为N个1对1关系的文本视频检索研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了TV-ProxyNet框架,解决了文本视频检索中模态差异的问题。通过将1对N关系转化为N个1对1关系,提高了查询精度和覆盖范围。实验结果显示,该方法在MSRVTT和ActivityNet Captions数据集上表现出色,改善了语义映射并减少了错误。
🎯
关键要点
- 本文提出了TV-ProxyNet框架,解决了文本视频检索中的模态差异问题。
- 通过将1对N关系转化为N个1对1关系,提高了查询精度和覆盖范围。
- 实验结果显示,该方法在MSRVTT和ActivityNet Captions数据集上表现出色。
- TV-ProxyNet改善了语义映射并减少了错误。
🏷️
标签
➡️