多视角关注的图像文本匹配
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE)框架,通过多种视图-文本匹配将整体图像-文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图-文本对应关系的不确定性,增强了模型理解图像和文本的对应关系的能力。实验结果表明,UAMVSE优于最先进的模型。
🎯
关键要点
-
提出了一种不确定性感知多视图视觉语义嵌入框架(UAMVSE)。
-
通过多种视图-文本匹配将整体图像-文本匹配分解。
-
引入不确定性感知损失函数(UALoss)以自适应建模视图-文本对应关系的不确定性。
-
不同的权重指导模型关注不同的语义信息。
-
增强了模型理解图像和文本对应关系的能力。
-
设计了一种优化的图像-文本匹配策略,通过标准化相似度矩阵提高模型性能。
-
在Flicker30k和MS-COCO数据集上的实验结果表明,UAMVSE优于最先进的模型。
🏷️