CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24 - 晓飞的算法工程笔记
原文中文,约2300字,阅读约需6分钟。发表于: 。来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification 论文地址:https://arxiv.org/abs/2409.16718 论文代码:
本文提出CLIPFit方法,通过微调CLIP模型的特定参数,提升视觉语言模型(VLMs)的性能。与传统方法不同,CLIPFit仅调整偏置项和LayerNorm,未引入外部参数,实验显示其在零样本情况下准确率提升7.27%。此外,采用知识蒸馏损失有效减轻遗忘问题。