基于知识的提示调优通用视觉语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
本文介绍了一种针对视觉-语言模型的知识感知提示调整(KAPT)框架,通过设计两种类型的知识感知提示和适应头部,实现在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的方法相比,KAPT 在新类别中获得了显著的性能提升。