CLAP:对预先训练的视觉语言模型鲁棒性的增强提示对比学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种利用预训练视觉-语言模型进行进一步调整的方法,使其能够适应新任务而不仅仅是零样本学习。通过在预训练的CLIP模型上增加附加层,并对线性适配器、自注意适配器以及修改CLIP文本编码器输入的提示调整进行研究,实验证明最简单的解决方案获得了最佳结果。这种方法显著改进了现有技术水平。

🎯

关键要点

  • 提出了一种利用预训练视觉-语言模型进行进一步调整的方法。
  • 该方法使模型能够适应新任务,而不仅仅是零样本学习。
  • 在预训练的CLIP模型上增加附加层进行研究。
  • 研究了线性适配器、自注意适配器和修改CLIP文本编码器输入的提示调整。
  • 提出了一种参数保留的方法,以保持增量学习过程中的稳定性和可塑性。
  • 实验证明,具有参数保留的线性适配器层获得了最佳结果。
  • 多个常规基准实验表明该方法显著改进了现有技术水平。
➡️

继续阅读