OVR:一份用于视频中开放词汇时态重复计数的数据集

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文介绍了多个视频处理相关的数据集和模型,如 Moments-OVRE、Countix 和 TVR,重点在于视频中重复动作的识别与计数。研究表明,结合音频信息和新型网络结构可以显著提高模型性能,尤其在复杂视觉条件下。此外,提出的多模态检索任务和数据集为视频分析提供了新的方法和基准。

🎯

关键要点

  • 提出了 Moments-OVRE 数据集,用于视频关系抽取,并对现有跨模态生成模型进行了基准测试。
  • 利用时间自相似性的方法预测视频中重复动作的周期,模型在重复计数基准测试中表现优异。
  • 设计了不需要下采样的重复计数网络,能够保留所有重复内容,并通过动态扩展的时间感受野框架进行检索。
  • 介绍了电视节目检索 (TVR) 数据集,结合视频和字幕文本,包含 109K 个查询,提出了新型跨模态时刻定位网络 (XML)。
  • 通过自动数据集创建方法,提出了 Composed Image Retrieval(CoIR)和 Composed Video Retrieval(CoVR)任务,构建了 WebVid-CoVR 数据集。
  • Replay 数据集用于多视角、多模态的人类社交互动视频,提供新视角合成的基准测试。
  • 提出了 LVOS 基准,评估 VOS 模型在真实场景中的性能,发现模型在实际应用中存在性能下降。
  • 介绍了一种将视听融合用于视频中重复活动计数的新方法,使用音频信息提高模型在困难视觉条件下的性能。
  • OxUvA 数据集用于评估单目标跟踪算法,评估算法在长序列中的定位和检测能力。
  • 研究了 Open-Vocabulary Action Recognition 的稳健性,提出了新颖的去噪框架以提高现有方法的稳健性。

延伸问答

Moments-OVRE 数据集的主要用途是什么?

Moments-OVRE 数据集用于视频关系抽取,特别是识别和计数视频中的重复动作。

如何提高视频中重复动作计数的模型性能?

结合音频信息和新型网络结构可以显著提高模型在复杂视觉条件下的性能。

TVR 数据集包含哪些类型的信息?

TVR 数据集结合了视频和相关的字幕文本,包含 109K 个查询,每个查询与一个精确的时间窗口相关联。

Replay 数据集的应用场景有哪些?

Replay 数据集可用于新视角合成、3D 重建、声学合成、人体和面部分析以及生成模型训练。

LVOS 基准的主要目标是什么?

LVOS 基准旨在评估视频对象分割模型在真实场景中的性能,特别是长视频中的跟踪和分割能力。

OxUvA 数据集用于评估什么类型的算法?

OxUvA 数据集用于评估单目标跟踪算法在长序列中的定位和检测能力。

➡️

继续阅读