非洲还是欧洲的燕子?针对细粒度物体分类的大型视觉语言模型基准测试
原文中文,约600字,阅读约需2分钟。发表于: 。最近大型视觉 - 语言模型(LVLMs)在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而,细粒度对象分类任务(例如,区分动物物种)的研究尚不足够,在下游任务中的重要性不够凸显。我们通过创建一个名为 FOCI(Fine-grained Object Classification)的难度较高的多项选择基准来弥补这一评估空白,该基准通过从现有的对象分类数据集中进行采样获得,并且通过...
研究人员创建了FOCI基准用于评估细粒度对象分类任务,发现CLIP模型优于LVLMs模型。LVLMs模型需要更多细粒度注释的预训练数据。