仅语言实现高效训练的零样本组合图像检索

原文约400字,阅读约需1分钟。发表于:

我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR 通过这种简单的策略,非常高效且高效,LinCIR 搭配 CLIP ViT-G 骨干网络在 48 分钟内进行训练,在 CIRCO、GeneCIS、FashionIQ 和 CIRR 四个不同的 CIR 基准上展现出最佳的零 - shot CIR 性能,甚至在 FashionIQ 上超过了有监督方法。

LinCIR是一种新型的CIR框架,只使用语言进行训练。它通过自掩蔽投影方法将文本的潜在嵌入投影到标记嵌入空间,并构建一个具有相同潜在嵌入向量的新文本。LinCIR在48分钟内训练,展现出最佳的零-shot CIR性能。

相关推荐 去reddit讨论