抗噪非监督视觉 - 语言模型适配器
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入 NtUA,一种噪声容忍的无监督适配器,在大规模视觉语言模型中实现了卓越的性能,通过少量未标记的目标样本学习优越的目标模型,并通过知识蒸馏纠正伪标签和缓存权重,从而在多个广泛采用的基准测试中实现了一致的卓越表现。
该文介绍了一种名为UP-Adapter的无监督微调方法,利用CLIP的文本-图像对齐能力自动选择每个类别中最有信心的样本,并生成类别原型,用于可学习的原型模型的初始化。经过微调后,该方法在图像识别和领域泛化方面的实验结果表明,在8-shot CoOp、8-shot Tip-Adapter和最先进的UPL方法上都取得了显著优势。