本文研究了使用预训练语言模型(PLMs)进行视觉语言推理的动态视觉提示(DVP)方法,提出了细粒度视觉提示(FGVP)和可转移视觉提示(TVP)方法,通过优化提示设计和训练策略,显著提升了多模态大语言模型在下游任务中的表现。
本研究提出了多模态漫画补充任务,设计了基于大规模语言模型的方法 MCoT,建立了包含两种语言的 M2C 基准数据集。同时,提出了基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。实验结果表明 FVP-M^2 方法在多模态漫画补充任务中有效。
完成下面两步后,将自动完成登录并继续当前操作。