通过预测分配来建立视觉和语言空间的桥梁

该论文介绍了 VLAP（pretrained vision models 和 large language models 之间的视觉理解的桥梁），通过一种新颖的方法，将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间，从而有效且通用地实现视觉和语言的理解。

本文分析了使用语言-仅依据进行视觉语义模型选择的两个挑战：模态差异和能力差异，并提出了一种称为SWAB的方法来缓解这两个差距。SWAB通过最优传输捕捉开源数据集与目标数据集之间的相关性，并将有用的统计信息从开源数据集传输到目标数据集，从而增强VLM在选择中的能力估计。实验证实了SWAB在多个VLM和图像分类数据集上的有效性。

SWAB 模态差异能力差异视觉语义模型选择语言-仅依据