概率语言-图像预训练

本研究针对传统的视觉语言模型在处理图像与文本之间的多对多关系时的不足，提出了概率语言-图像预训练（ProLIP），该方法使用概率目标在十亿规模的图像-文本数据集上进行预训练。研究表明，ProLIP通过引入不确定性估计和新的包容性损失，显著提升了下游任务的表现，并有效提高了图像分类准确率，展示了其在实际应用中的潜在优势。

本研究提出了概率语言-图像预训练（ProLIP），旨在解决传统视觉语言模型在图像与文本多对多关系中的不足。ProLIP通过不确定性估计和包容性损失，显著提升了下游任务的表现和图像分类的准确率，展示了其实际应用潜力。

ProLIP 不确定性估计包容性损失图像分类视觉语言模型