本研究提出了概率语言-图像预训练(ProLIP),旨在解决传统视觉语言模型在图像与文本多对多关系中的不足。ProLIP通过不确定性估计和包容性损失,显著提升了下游任务的表现和图像分类的准确率,展示了其实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。