基于知识的提示调优通用视觉语言模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种针对视觉-语言模型的知识感知提示调整(KAPT)框架,通过设计两种类型的知识感知提示和适应头部,实现在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的方法相比,KAPT 在新类别中获得了显著的性能提升。

🎯

关键要点

  • 本文介绍了一种知识感知提示调整(KAPT)框架,针对视觉-语言模型。
  • KAPT 通过设计离散提示和学习连续提示两种类型的知识感知提示来实现。
  • 该框架在少样本图像分类中表现出有效性和对未见类别的泛化能力。
  • 与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益。
  • KAPT 还实现了 2.57% 的调和均值增益。
➡️

继续阅读