基于对比变压器学习的近距离数据生成的基于文本的人物搜索

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种视觉引导的语义组网络(VGSG),用于解决基于文本的人物搜索(TBPS)问题。该方法通过引导的视觉线索提取对齐良好的细粒度视觉和文本特征,并采用关系性知识传递方法来传播信息,实现语义组文本特征与相应的视觉特征对齐。该方法在两个基准测试中表现出优越性。

🎯

关键要点

  • 提出了一种视觉引导的语义组网络(VGSG)
  • 针对基于文本的人物搜索(TBPS)问题
  • 通过引导的视觉线索提取对齐良好的细粒度视觉和文本特征
  • 设计了一种关系性知识传递方法来传播信息
  • 实现语义组文本特征与相应的视觉特征对齐
  • 该方法在两个基准测试中表现出优越性
➡️

继续阅读