探索视觉提示在多模态大型语言模型中的可转移性
原文中文,约300字,阅读约需1分钟。发表于: 。通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
本文研究使用预训练语言模型(PLMs)进行视觉语言推理任务,提出了Dynamic Visual Prompting(DVP)转移学习方法,能有效结合不同的视觉语言任务。DVP在效率和性能方面具有优势,并能适应预训练语言模型与VL任务的需求。