CLIP模型中文本-图像模态差距的原因与意义
原文英文,约2900词,阅读约需11分钟。发表于: 。You can't just use a CLIP model to retrieve text and images and sort the results by score. Why? Because of the modality gap. What is it, and where does it come from?
语义嵌入是现代AI模型的核心,嵌入理论有两个部分:AI模型创建向量表示事物,向量之间的空间关系表示事物之间的关系。多模态模型中存在模态差距,即图像和文本在嵌入空间中的位置相距较远。这是结构性问题,可能没有解决方案。训练温度和对比学习也会影响模态差距。解决这个问题可能具有广泛的影响。