GalLoP: 学习视觉 - 语言模型的全局和局部提示
原文中文,约600字,阅读约需2分钟。发表于: 。全球局部提示(GalLoP)是一种新的提示学习方法,通过学习多种多样的提示,利用全局和局部视觉特征,以提高视觉 - 语言模型在少样本图像分类中的准确性和鲁棒性。在不同的少样本设置和各种背景下,GalLoP 在准确性方面优于以前的提示学习方法,并且在域泛化和 OOD 检测方面表现出强大的鲁棒性,甚至优于专门的 OOD 检测方法。
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究受限的问题。通过小规模的特定领域基础模型和最少的提示样本,GDPL 实现了 VLMs 在特定领域的强大识别能力转移。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。