仅使用文本数据从 CLIP 模型中推断身份

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该方法利用视觉-语言模型CLIP进行零样本异常检测,通过滑动窗口方式对图像部分应用分类,使用文本嵌入训练神经网络提取正常和异常特征,实现无需训练图像的无类别异类检测,取得了最新性能。

🎯

关键要点

  • 提出了一种利用视觉-语言模型CLIP的新方法进行零样本异常检测。
  • 该方法通过滑动窗口方式对图像的每个部分应用提示引导分类。
  • 生成文本嵌入来训练前馈神经网络,从CLIP的嵌入中提取正常和异常特征。
  • 实现了无需训练图像的无类别异类检测。
  • 该方法在零样本设置下取得了最新性能。
➡️

继续阅读