动态视觉提示调整用于参数高效的迁移学习
原文中文,约700字,阅读约需2分钟。发表于: 。参数有效的迁移学习 (PETL) 是一个新兴的研究领域,旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT),可以为每个图像生成动态的实例级标记,以捕捉每个图像的独特视觉特征,从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验,我们发现 DVPT 方法在性能上优于其他 PETL 方法,甚至在 19 个下游任务中有 17 个超越了完全微调的性能,同时保持了高参数效率。
本文介绍了一种名为VL-PET的框架,可通过粒度控制机制对模块化修改的效果进行有效控制,以提高模型的效率和效果。作者还提出了轻量级PET模块设计,以增强编码器的VL对齐和建模能力,并保持解码器的文本生成能力。实验证明,VL-PET框架在图像-文本任务上相比VL-Adapter和LoRA有更好的性能提升。