本文研究了CLIP图像编码器,分解了图像表示为各个图像块、模型层和注意力头之间的总和,并利用CLIP的文本表示来解释各个部分。通过解释注意力头和图像块,揭示了CLIP中的空间定位和许多头的特定角色。最后,利用这一理解,从CLIP中去除虚假特征,并创建了一个强大的零样本图像分割器。
完成下面两步后,将自动完成登录并继续当前操作。