OVR:一份用于视频中开放词汇时态重复计数的数据集
原文中文,约300字,阅读约需1分钟。发表于: 。我们介绍了一个视频中时间重复的注释数据集 OVR,包含对超过 72K 个视频的注释,每个注释指定重复的次数、重复的开始和结束时间以及对正在重复的内容的自由形式描述。此外,我们还提出了一个基于 Transformer 的基准计数模型 OVRCounter,可以在视频中定位和计数重复,数据集已经发布并可供下载。
本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。