ArtVLM: 基于视觉前缀语言建模的属性识别

本研究解决了零-shot视觉属性识别的挑战，主要是由于现有的大型视觉语言表示方法难以有效捕捉对象与属性之间的关系。通过引入条件概率图来建模对象-属性关系，提出了一种新的基于句子生成的检索方法，并表明该方法在多个视觉推理数据集上优于传统的对比检索，为视觉属性识别提供了更精确的解决方案。

最近的研究发现，使用基于大型语言模型的可解释视觉识别方法可以通过查询属性对图像进行分类。研究者提出了一种新的学习搜索方法，仅使用32个属性就能在CUB数据集上区分200个鸟类，性能接近于使用大量属性的方法。该方法还具有更高的可解释性、互动性和总结知识的能力。