UCF-Crime 注解:监控视频与语言理解的基准测试

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种构建多模态监控视频数据集的方法UCA,通过手动注释真实世界监控数据集UCF-Crime的细粒度事件内容和时间来构建。作者基于该数据集评估了多个多模态任务的最先进模型,并发现以前公开数据集中使用的主流模型在多模态监控视频场景下表现不佳。

🎯

关键要点

  • 提出了一种构建多模态监控视频数据集的方法,命名为UCA。
  • UCA数据集通过手动注释UCF-Crime监控数据集的细粒度事件内容和时间构建。
  • 事件在数据集中详细描述,并提供了0.1秒的精确时间定位。
  • 基于UCA数据集评估了多个多模态任务的最先进模型。
  • 包括视频中的时间句子定位、视频字幕生成和稠密视频字幕生成等任务。
  • 实验证明,主流模型在多模态监控视频场景下表现不佳,强调了构建UCA数据集的必要性。
➡️

继续阅读