本文探讨视频动作检测(VAD),强调分类的重要性高于演员定位。通过减少对演员的偏见,关注动作类别相关的上下文,改进分类效果。研究展示了多种新模型,如SAFSAR和基于姿势增强的视觉语言模型,在多个基准测试中表现优异,提升了视频理解和动作识别的准确性。
本文探讨视频动作检测中的数据集质量,提出了多演员多行为(MAMA)数据集,并研究了时间关系对视频数据集的影响。研究强调视频异常检测(VAD)需扩展至复杂异常,介绍了新数据集HMDB-AD和HMDB-Violence,以及基于AI-VAD框架的多帧异常检测方法(MFAD),实验结果显示MFAD在复杂异常检测中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。