本文介绍了一种名为 LAVAD 的视频异常检测方法,该方法利用大型语言模型和视觉-语言模型生成视频描述,从而提升异常检测效果。在 UCF-Crime 和 XD-Violence 数据集上,该方法表现优异,无需额外训练。此外,研究还探讨了视觉语言模型在医学图像分析和零样本分类中的应用,展示了其在多种任务中的有效性和潜力。
本文介绍了多种视频异常检测方法,包括基于生成合作学习的无监督检测、隐私感知框架TeD-SPAD、伪标签生成框架,以及结合大语言模型的LAVAD方法。这些方法在多个数据集上表现出色,提高了异常检测的准确性和效率,并平衡了标注成本与性能。此外,研究还提出了新的数据集NWPU Campus和多种创新技术,推动了视频异常检测领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。