通过预测分配来建立视觉和语言空间的桥梁
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文分析了使用语言-仅依据进行视觉语义模型选择的两个挑战:模态差异和能力差异,并提出了一种称为SWAB的方法来缓解这两个差距。SWAB通过最优传输捕捉开源数据集与目标数据集之间的相关性,并将有用的统计信息从开源数据集传输到目标数据集,从而增强VLM在选择中的能力估计。实验证实了SWAB在多个VLM和图像分类数据集上的有效性。
🎯
关键要点
-
分析了使用语言-仅依据进行视觉语义模型选择的两个挑战:模态差异和能力差异。
-
提出了一种称为SWAB的方法来缓解模态差异和能力差异。
-
SWAB通过最优传输捕捉开源数据集与目标数据集之间的相关性。
-
SWAB将有用的统计信息从开源数据集传输到目标数据集。
-
SWAB增强了视觉语义模型在选择中的能力估计。
-
实验证实了SWAB在多个视觉语义模型和图像分类数据集上的有效性。
➡️