MagicLens:自我监督图像检索与开放式指令
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
LinCIR是一种新型的CIR框架,通过自掩蔽投影方法将文本的潜在嵌入投影到标记嵌入空间,并替换关键词标记,实现相同的潜在嵌入向量。LinCIR通过CLIP ViT-G骨干网络进行训练,在多个CIR基准上展现出最佳的零-shot CIR性能。
🎯
关键要点
-
LinCIR是一种新型的CIR框架,仅使用语言进行训练。
-
LinCIR采用自掩蔽投影(SMP)方法,将文本的潜在嵌入投影到标记嵌入空间。
-
LinCIR通过替换关键词标记构建新文本,使新旧文本具有相同的潜在嵌入向量。
-
LinCIR训练高效,使用CLIP ViT-G骨干网络在48分钟内完成训练。
-
LinCIR在CIRCO、GeneCIS、FashionIQ和CIRR四个CIR基准上展现出最佳的零-shot CIR性能。
-
在FashionIQ基准上,LinCIR的表现甚至超过了有监督方法。
🏷️
标签
➡️