小红花·文摘

该研究提出了一种新的文本图像相互感知方法，旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。通过引入最小超球能量和文本感知图像调整机制，实验结果表明该方法在抵御对抗扰动的同时，保持了模型的零-shot泛化能力。