该研究探索了预训练的视觉语言模型和大型语言模型在视觉常识推理中的协同能力。研究提出了一种名为ViCor的协作方法,在视觉常识推断中通过大型语言模型主动引导视觉语言模型集中关注和收集相关的视觉元素来支持潜在的常识推断。该方法在两个VCR基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
完成下面两步后,将自动完成登录并继续当前操作。