BriefGPT - AI 论文速递 ·

通过适应预训练视觉语言模型进行异常检测

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

本文介绍了基于CLIP模型的零样本异常检测方法，如VadCLIP和AnomalyCLIP，利用自然语言监督和视觉表示进行异常识别。研究表明，结合视觉-语言模型与适应方法能有效提升检测性能，尤其在视频异常检测中表现优异。模型通过轻量级策略和少量数据展现出良好的泛化能力和鲁棒性。

🎯

❓

VadCLIP是一种弱监督视频异常检测方法，无需预训练和微调，通过双分支实现粗粒度和细粒度的异常检测，表现优异。

AnomalyCLIP通过学习无关物体的文本提示来捕捉图像中的正常和异常，实现对高度多样物体数据集的零样本识别。

CLIP-Adapter通过在原训练模型上加入新特征层并进行残差式混合，提升视觉分类任务的表现。

结合视觉-语言模型与适应方法，使用少量数据显著提高检测性能，尤其在视频异常检测中表现优异。

基于CLIP的检测器在生成图像的检测中展现出良好的泛化能力和鲁棒性，能够在多种生成模型中有效应用。

使用CLIP进行零样本异常检测可以通过自然语言监督学习视觉表示，减少对大量标注数据的依赖，提升检测的灵活性和效率。

🏷️