用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的框架,通过对比文本间接对齐素描和照片,实现了零样本学习,有效处理未见类别。实验证明该方法在零样本基于素描的图像检索上有效。

🎯

关键要点

  • 零样本学习为处理未见类别提供有效解决方案,避免繁琐数据收集。
  • 提出了一种新颖框架,通过对比文本间接对齐素描和照片,避免成对样本需求。
  • 方法通过学习明确的形态编码,将形态不可知的语义与形态特定信息分解。
  • 在联合潜空间内实现有效的跨模态内容检索,桥接形态间的差距。
  • 全面实验验证了模型在零样本基于素描的图像检索上的有效性,适用于广义和细粒度设置。
➡️

继续阅读