我们提出了一种Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE)框架,通过多种视图-文本匹配将整体图像-文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图-文本对应关系的不确定性,增强了模型理解图像和文本的对应关系的能力。实验结果表明,UAMVSE优于最先进的模型。
该文介绍了UAMVSE图像-文本匹配框架,通过多种视图-文本匹配将整体匹配分解,并引入不确定性感知损失函数来增强模型理解图像和文本的对应关系的能力。实验结果表明,该模型在Flicker30k和MS-COCO数据集上优于最先进的模型。
完成下面两步后,将自动完成登录并继续当前操作。