CounterCurate:通过反事实的例子增强物理和语义的视觉 - 语言组合推理能力
原文中文,约300字,阅读约需1分钟。发表于: 。通过 CounterCurate 框架,综合改善对比式和生成式多模态模型的视觉 - 语言组合推理能力,通过解决忽视物理基础推理(计数和位置理解)和使用高能力文本和图像生成模型进行语义反事实微调的潜力等两个问题来提高推理性能。
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上取得了优越表现。