大型视觉语言模型的少样本自适应研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为UP-Adapter的无监督微调方法,利用CLIP的文本-图像对齐能力选择每个类别中最有信心的样本生成类别原型,用于原型模型的初始化。通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于下游识别任务。实验结果显示该方法在图像识别和领域泛化方面具有优势。
🎯
关键要点
- 提出了一种名为UP-Adapter的无监督微调方法。
- 利用CLIP的文本-图像对齐能力选择每个类别中最有信心的样本。
- 生成类别原型用于可学习的原型模型的初始化。
- 通过剩余连接将原型模型的预测与原始CLIP的预测相结合。
- 该方法在图像识别和领域泛化方面表现出显著优势。
➡️