填补视觉语言模型选择中的模态和容量差距

原文约300字，阅读约需1分钟。发表于：。

本文分析了在使用语言 - 仅依据进行视觉语义模型 (VLM) 选择中的两个固有挑战：模态差异和能力差异，并提出了一种称为 SWAB 的方法来缓解这两个差距，通过最优传输捕捉开源数据集与目标数据集之间的相关性，并将有用的统计信息从开源数据集传输到目标数据集，从而增强 VLM 在选择中的能力估计。通过在多个 VLM 和图像分类数据集上进行的实验验证了 SWAB 的有效性。

本文分析了使用语言-仅依据进行视觉语义模型（VLM）选择中的两个挑战：模态差异和能力差异，并提出了一种名为SWAB的方法来缓解这两个差距。实验证明SWAB有效。