仅使用文本数据从 CLIP 模型中推断身份
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该方法利用视觉-语言模型CLIP进行零样本异常检测,通过滑动窗口方式对图像部分应用分类,使用文本嵌入训练神经网络提取正常和异常特征,实现无需训练图像的无类别异类检测,取得了最新性能。
🎯
关键要点
- 提出了一种利用视觉-语言模型CLIP的新方法进行零样本异常检测。
- 该方法通过滑动窗口方式对图像的每个部分应用提示引导分类。
- 生成文本嵌入来训练前馈神经网络,从CLIP的嵌入中提取正常和异常特征。
- 实现了无需训练图像的无类别异类检测。
- 该方法在零样本设置下取得了最新性能。
➡️