该研究提出了一种自适应提示调优方法,通过交叉注意力机制增强CLIP模型,以应对细粒度分类挑战。该方法动态调整文本提示,实现图像与文本特征的准确对齐,并在多个数据集上显著提升性能和模型预测的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。