文本到图像的跨模态自适应双重关联

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为SSAN的语义自对齐网络,用于解决文本到图像中的人物再识别问题。SSAN通过提取语义对齐的部分级特征,并设计了一个多视角非局部网络来捕捉身体部分之间的关系,建立身体部位和名词短语之间的对应关系。实验证明,该方法在性能上优于现有方法,并提供了新的数据集和代码。

🎯

关键要点

  • 提出了一种语义自对齐网络 (SSAN),用于解决文本到图像中的人物再识别问题。
  • SSAN 自动提取语义对齐的部分级特征,并设计了多视角非局部网络捕捉身体部分之间的关系。
  • 建立身体部位和名词短语之间的对应关系。
  • 引入了 Compound Ranking (CR) loss,利用同一身份的其他图像的文本描述提供额外监督。
  • 有效降低文本特征的类内差异。
  • 经过实验验证,SSAN 在性能上优于现有的最先进方法和一些高级算法。
  • 提供了新的 ICFG-PEDES 数据集和 SSAN 代码。
➡️

继续阅读