DIVE:面向描述性和多样性的视觉常识生成
本文利用预训练的语言-图像模型解决了可视化分析中的两个问题:高效探索大规模图像数据集和发现数据偏差,以及评估和生成图像标题的过程。通过分析自动生成的图像标题,深入了解视觉内容的语义基础,并揭示了数据偏差。同时,通过展示视觉内容与文本标题之间的关联,发现了预训练的语言-图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。该系统经过案例研究和大规模图像数据集验证了其有效性。
原文中文,约300字,阅读约需1分钟。