小红花·文摘

本文研究了CLIP图像编码器，分解了图像表示为各个图像块、模型层和注意力头之间的总和，并利用CLIP的文本表示来解释各个部分。通过解释注意力头和图像块，揭示了CLIP中的空间定位和许多头的特定角色。最后，利用这一理解，从CLIP中去除虚假特征，并创建了一个强大的零样本图像分割器。