该研究提出了一种新的文本图像相互感知方法,旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。通过引入最小超球能量和文本感知图像调整机制,实验结果表明该方法在抵御对抗扰动的同时,保持了模型的零-shot泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。