有效梯度逼近下的视觉 - 语言模型的黑盒调优

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本文介绍了视觉与语言参数高效调整(VL-PET)框架,通过粒度控制机制对模块化修改进行控制。实验证明,VL-PET在图像-文本任务上优于VL-Adapter和LoRA。采用VL-PET设计还可以增强现有PET技术的效果。

🎯

关键要点

  • 预训练语言模型(PLMs)模型大小迅速增长,全面微调的训练和存储变得困难。

  • 在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改整合到编码器-解码器 PLMs 中。

  • 过多的模块化修改和忽视编码器与解码器之间的功能差距可能导致性能下降。

  • 本文提出视觉与语言参数高效调整(VL-PET)框架,通过新的粒度控制机制有效控制模块化修改的效果。

  • VL-PET 框架可以实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。

  • 提出轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,同时保持解码器的文本生成能力。

  • 在四个图像-文本任务和四个视频-文本任务上进行的实验证明了 VL-PET 框架的效率、效果和可转移性。

  • VL-PET-large 与轻量级 PET 模块设计在图像-文本任务上相比 VL-Adapter 提升了 2.92%,相比 LoRA 提升了 3.37%。

  • 验证了 VL-PET 设计对现有 PET 技术的增强效果,实现显著的性能提升。

➡️

继续阅读