CounterCurate:通过反事实的例子增强物理和语义的视觉 - 语言组合推理能力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。通过名为ViCor的协作方法,LLM主动引导VLM集中关注和收集相关的视觉元素,支持潜在的常识推断。该方法在两个VCR基准数据集上取得了优越表现。
🎯
关键要点
- 本研究探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理中的协同能力。
- VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。
- 在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。
- 在 VCI 方面,VLM 面临困难。
- 提出了名为 ViCor 的协作方法,通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素。
- ViCor 方法在两个 VCR 基准数据集上取得了优越表现,无需领域内监督微调。
🏷️
标签
➡️