OVR:一份用于视频中开放词汇时态重复计数的数据集

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。

原文中文,约300字,阅读约需1分钟。
阅读原文