动态视觉提示调整用于参数高效的迁移学习

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本文介绍了一种名为VL-PET的框架,可通过粒度控制机制对模块化修改的效果进行有效控制,以提高模型的效率和效果。作者还提出了轻量级PET模块设计,以增强编码器的VL对齐和建模能力,并保持解码器的文本生成能力。实验证明,VL-PET框架在图像-文本任务上相比VL-Adapter和LoRA有更好的性能提升。

🎯

关键要点

  • 预训练语言模型(PLMs)模型大小迅速增长,全面微调的训练和存储变得困难。

  • 在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改整合到编码器-解码器 PLMs 中。

  • 过多的模块化修改可能导致性能下降,现有的 PET 技术忽视了编码器和解码器之间的功能差距。

  • 本文提出了一种视觉与语言参数高效调整(VL-PET)框架,通过粒度控制机制有效控制模块化修改的效果。

  • VL-PET 框架可以实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。

  • 提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。

  • 在多个图像-文本和视频-文本任务上的实验证明了 VL-PET 框架的效率、效果和可转移性。

  • VL-PET-large 在图像-文本任务上相比 VL-Adapter 提升了 2.92%,相比 LoRA 提升了 3.37%。

  • 验证了 VL-PET 设计对现有 PET 技术的增强效果,实现显著的性能提升。

➡️

继续阅读