用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索

本文研究零样本基于手绘图像检索(ZS-SBIR)问题,利用大规模预训练语言模型为图像提供辅助文本描述,通过交叉注意力机制在文本 - 手绘图像和文本 - 真实图像之间进行特征交换和对齐,实现零样本泛化能力,实验结果显示在三个基准数据集上,相比现有的 ZS-SBIR 方法,我们具有卓越的性能。

本文提出了一种新的框架,通过对比文本间接对齐素描和照片,实现了零样本学习,有效处理未见类别。实验证明该方法在零样本基于素描的图像检索上有效。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文