面向高效视觉 - 语言微调的记忆空间视觉提示
原文中文,约400字,阅读约需1分钟。发表于: 。当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信...
本文提出了一种新方法,称为内存空间视觉提示(MemVP),通过在语言模型的前馈网络中加入视觉提示与权重的连接,大大减少了训练时间和推理延迟,并且在实验证明其性能超越了先前的方法。