语言模型作为视觉 - 语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

该文介绍了一种软提示学习的方法，可用于Vision & Language模型，通过最小化软提示与手工工程提示之间的距离来提高模型性能，并能够训练虚拟类。该方法在11个数据集上进行的广泛评估表明，显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和CLIP的新类准确性。