使用 CLIP 的随机词数据增强技术进行零样本异常检测

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种利用视觉-语言模型CLIP进行零样本异常检测的新方法。通过滑动窗口方式对图像的每个部分应用提示引导分类,并通过生成文本嵌入来训练前馈神经网络。通过从CLIP的嵌入中提取正常和异常特征,实现了无需训练图像的无类别异类检测,并取得了零样本设置下的最新性能。

🎯

关键要点

  • 提出了一种利用视觉-语言模型CLIP进行零样本异常检测的新方法。

  • 采用滑动窗口方式对图像的每个部分应用提示引导分类。

  • 通过生成文本嵌入来训练前馈神经网络。

  • 从CLIP的嵌入中提取正常和异常特征。

  • 实现了无需训练图像的无类别异类检测。

  • 在零样本设置下取得了最新性能。

➡️

继续阅读