小红花·文摘

本文提出了一种基于CLIP的深度交互式跨模态提示学习（DCP）方法，通过多头注意力模块实现视觉和语言之间的相互作用。实验结果显示，DCP在少样本学习和域自适应方面表现出了出色的性能。