小红花·文摘

该研究介绍了一个名为TVR的新的多模式检索数据集，包含109K个查询和相关的字幕文本，同时提出了一种新型跨模态时刻定位网络(XML)。该模型采用了一种新颖的卷积起始和结束检测器(ConvSE)模型，具有更好的效率和性能。同时，还收集了描述TVR中各个标注时刻的相关信息，形成了一个新的多模式字幕数据集TVC，两个数据集均可以公开获取。