小红花·文摘

本研究提出了概率语言-图像预训练（ProLIP），旨在解决传统视觉语言模型在图像与文本多对多关系中的不足。ProLIP通过不确定性估计和包容性损失，显著提升了下游任务的表现和图像分类的准确率，展示了其实际应用潜力。