文本到视频检索的框架选择的实证研究
原文中文,约300字,阅读约需1分钟。发表于: 。为了有效地选择文本到视频检索过程中最具代表性的帧并提高检索效率,该论文通过对现有方法的分类和分析,提出了两种新的帧选择方法,并从多个 TVR 基准测试得出结论:适当的帧选择可以显著提高检索效果。
该研究介绍了一个名为TVR的新的多模式检索数据集,包含109K个查询和相关的字幕文本,同时提出了一种新型跨模态时刻定位网络(XML)。该模型采用了一种新颖的卷积起始和结束检测器(ConvSE)模型,具有更好的效率和性能。同时,还收集了描述TVR中各个标注时刻的相关信息,形成了一个新的多模式字幕数据集TVC,两个数据集均可以公开获取。