本文研究了使用预训练语言模型(PLMs)进行视觉语言推理的动态视觉提示(DVP)方法,提出了细粒度视觉提示(FGVP)和可转移视觉提示(TVP)方法,通过优化提示设计和训练策略,显著提升了多模态大语言模型在下游任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。