本研究提出了一种名为PEVL的显式目标位置建模方法,提高VLP模型性能。实验结果显示,PEVL在无检测器的VLP模型上取得最先进的性能。
本研究提出了一种名为PEVL的显式目标位置建模方法,用于提高VLP模型在特定视觉-语言任务上的性能。该方法将离散化目标位置与语言内容整合到一个语言建模框架中,实现显式的视觉-语言对齐,并为各种下游任务提供了灵活的提示微调方式。实验结果显示,PEVL在无检测器的VLP模型上能够取得最先进的性能,并提高在具有定位敏感输入的任务上的性能。
完成下面两步后,将自动完成登录并继续当前操作。