动态视觉提示调整用于参数高效的迁移学习

参数有效的迁移学习 (PETL) 是一个新兴的研究领域，旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT)，可以为每个图像生成动态的实例级标记，以捕捉每个图像的独特视觉特征，从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验，我们发现 DVPT 方法在性能上优于其他 PETL 方法，甚至在 19 个下游任务中有 17 个超越了完全微调的性能，同时保持了高参数效率。

本文介绍了一种名为VL-PET的框架，可通过粒度控制机制对模块化修改的效果进行有效控制，以提高模型的效率和效果。作者还提出了轻量级PET模块设计，以增强编码器的VL对齐和建模能力，并保持解码器的文本生成能力。实验证明，VL-PET框架在图像-文本任务上相比VL-Adapter和LoRA有更好的性能提升。

VL-PET 图像-文本任务文本生成模块化修改编码器