基于知识的提示调优通用视觉语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种针对视觉-语言模型的知识感知提示调整(KAPT)框架,通过设计两种类型的知识感知提示和适应头部,实现在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的方法相比,KAPT 在新类别中获得了显著的性能提升。
🎯
关键要点
- 本文介绍了一种知识感知提示调整(KAPT)框架,针对视觉-语言模型。
- KAPT 通过设计离散提示和学习连续提示两种类型的知识感知提示来实现。
- 该框架在少样本图像分类中表现出有效性和对未见类别的泛化能力。
- 与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益。
- KAPT 还实现了 2.57% 的调和均值增益。
➡️