DIVE：面向描述性和多样性的视觉常识生成

本研究解决了现有视觉常识生成研究中忽视的生成描述性和多样性推断的重要性。提出的DIVE框架通过通用推断过滤和对比检索学习两种方法，显著提升了生成推断的描述性与多样性，并在视觉常识生成的实验中超过现有最先进模型，达到人类水平的表现。

本文利用预训练的语言-图像模型解决了可视化分析中的两个问题：高效探索大规模图像数据集和发现数据偏差，以及评估和生成图像标题的过程。通过分析自动生成的图像标题，深入了解视觉内容的语义基础，并揭示了数据偏差。同时，通过展示视觉内容与文本标题之间的关联，发现了预训练的语言-图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。该系统经过案例研究和大规模图像数据集验证了其有效性。