该文介绍了一种构建多模态监控视频数据集的方法UCA,通过手动注释真实世界监控数据集UCF-Crime的细粒度事件内容和时间来构建。作者基于该数据集评估了多个多模态任务的最先进模型,并发现以前公开数据集中使用的主流模型在多模态监控视频场景下表现不佳。
完成下面两步后,将自动完成登录并继续当前操作。