仅语言实现高效训练的零样本组合图像检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
LinCIR是一种新型的CIR框架,只使用语言进行训练。它通过自掩蔽投影方法将文本的潜在嵌入投影到标记嵌入空间,并构建一个具有相同潜在嵌入向量的新文本。LinCIR在48分钟内训练,展现出最佳的零-shot CIR性能。
🎯
关键要点
-
LinCIR是一种新型的CIR框架,只使用语言进行训练。
-
LinCIR通过自掩蔽投影方法将文本的潜在嵌入投影到标记嵌入空间。
-
LinCIR构建的新文本替换了原始文本中的关键词标记,保持相同的潜在嵌入向量。
-
LinCIR在48分钟内训练,展现出最佳的零-shot CIR性能。
-
LinCIR在CIRCO、GeneCIS、FashionIQ和CIRR四个基准上表现优异,甚至在FashionIQ上超过了有监督方法。
🏷️
标签
➡️