语言驱动的视觉概念学习

通过从大型预训练的视觉语言模型中提取和训练一组概念编码器，我们的目标是学习一种以语言为导向的视觉概念表示，以重现输入图像，并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入，从而生成具有视觉概念新组合的图像。

ConceptX框架利用聚类发现预训练语言模型中的潜在概念，并与人类定义的概念对齐解释。学习表示中的潜在空间与不同语言概念有不同程度的重叠，较低层主要表示词汇概念，而核心语言概念在中高层更好地表示。部分编码的概念具有多面性，无法用现有的人类定义概念充分说明。