EventLens: 利用事件感知预训练和跨模态链接提升视觉常识推理
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入事件感知预训练辅助任务和跨模态链接,并使用指令式提示和任务特定适配器来提高大型语言模型在视觉常识推理任务上的效果。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上表现优越。
通过引入事件感知预训练辅助任务和跨模态链接,并使用指令式提示和任务特定适配器来提高大型语言模型在视觉常识推理任务上的效果。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上表现优越。