本研究提出了一种层次结构学习(HIST)方法,以解决视觉语言模型(VLM)在图像与文本配对中的对齐问题。通过引入主语损失和加法损失,HIST显著提升了VLM的性能,强调了结构化学习的重要性。
完成下面两步后,将自动完成登录并继续当前操作。