不确定性感知的多视角视觉语义嵌入

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了UAMVSE图像-文本匹配框架,通过多种视图-文本匹配将整体匹配分解,并引入不确定性感知损失函数来增强模型理解图像和文本的对应关系的能力。实验结果表明,该模型在Flicker30k和MS-COCO数据集上优于最先进的模型。

🎯

关键要点

  • 提出了一种不确定性感知多视图视觉语义嵌入框架(UAMVSE)。

  • 通过多种视图-文本匹配将整体图像-文本匹配分解。

  • 引入不确定性感知损失函数(UALoss)以自适应建模视图-文本对应关系的不确定性。

  • 不同的权重指导模型关注不同的语义信息,增强理解能力。

  • 设计了一种优化的图像-文本匹配策略,通过标准化相似度矩阵提高模型性能。

  • 在Flicker30k和MS-COCO数据集上的实验结果表明,UAMVSE优于最先进的模型。

➡️

继续阅读