文本到视频检索的框架选择的实证研究

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究介绍了一个名为TVR的新的多模式检索数据集,包含109K个查询和相关的字幕文本,同时提出了一种新型跨模态时刻定位网络(XML)。该模型采用了一种新颖的卷积起始和结束检测器(ConvSE)模型,具有更好的效率和性能。同时,还收集了描述TVR中各个标注时刻的相关信息,形成了一个新的多模式字幕数据集TVC,两个数据集均可以公开获取。

🎯

关键要点

  • 研究介绍了新的多模式检索数据集TVR,包含109K个查询和相关字幕文本。

  • TVR中的每个查询与一个精确的时间窗口相关联,并具有查询类型标签。

  • 提出了一种新型跨模态时刻定位网络(XML),用于多模态时刻检索任务。

  • 模型采用新颖的卷积起始和结束检测器(ConvSE),提高了效率和性能。

  • 收集了描述TVR中各个标注时刻的相关信息,形成新的多模式字幕数据集TVC。

  • TVR和TVC两个数据集均可公开获取。

➡️

继续阅读