引入路由功能以低秩瓶颈优化视觉语言参数高效微调
原文中文,约700字,阅读约需2分钟。发表于: 。针对视觉 - 语言(VL)任务的参数高效微调方法,使用名为路由函数的操作在低秩瓶颈中增强了 VL 对齐,极大地改善了原始 PEFT 方法在各种 VL PEFT 设置中的表现,包括 20% 的提升(在 VQAv2 上)和 30% 的提升(在 COCO Captioning 上),同时也在多种 VL PEFT 任务中对预训练的多模态模型(如 CLIP-BART)进行微调时观察到了较小但一致的改进。
本文介绍了一种视觉与语言参数高效调整(VL-PET)框架,用于在预训练语言模型中整合模块化修改。该框架通过粒度控制机制实例化多种与模型无关的VL-PET模块,提高效率和效果。实验证明,VL-PET框架在图像-文本任务上相比现有技术有显著性能提升。