遥感图像文本检索的参数高效迁移学习
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本文介绍了一种视觉与语言参数高效调整(VL-PET)框架,通过粒度控制机制对模块化修改进行有效控制。该框架在图像 - 文本任务上提升了性能,并增强了现有PET技术的效果。
🎯
关键要点
- 预训练语言模型(PLMs)模型大小迅速增长,全面微调的训练和存储变得困难。
- 视觉与语言(VL)领域提出了参数高效调整(PET)技术,将模块化修改整合到编码器 - 解码器 PLMs 中。
- 通过调整少量可训练参数,PET 技术的性能与全面微调方法相当。
- 过多的模块化修改和忽视编码器与解码器之间的功能差距可能导致性能下降。
- 现有的 PET 技术(如 VL-Adapter)忽视了这些关键问题。
- 本文提出了一种视觉与语言参数高效调整(VL-PET)框架,通过新的粒度控制机制有效控制模块化修改的效果。
- 该机制生成的不同粒度控制矩阵可实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。
- 提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。
- 在四个图像 - 文本任务和四个视频 - 文本任务上进行的实验证明了 VL-PET 框架的效率、效果和可转移性。
- VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%,相比 LoRA 提升了 3.37%。
- 验证了采用 VL-PET 设计对现有 PET 技术的增强效果,实现显著的性能提升。
➡️