ArcSin: 自适应范围余弦相似性注入噪声以支持以语言为驱动的视觉任务

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

LinCIR是一种新型的CIR框架,通过自掩蔽投影方法将文本的潜在嵌入投影到标记嵌入空间,并替换关键词标记,使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR在不同的CIR基准上展现出最佳的零-shot CIR性能。

🎯

关键要点

  • LinCIR是一种新型的CIR框架,使用语言进行训练。

  • LinCIR采用自掩蔽投影(SMP)方法,将文本潜在嵌入投影到标记嵌入空间。

  • LinCIR通过替换关键词标记构建新文本,使新旧文本具有相同的潜在嵌入向量。

  • LinCIR在CIRCO、GeneCIS、FashionIQ和CIRR四个基准上展现出最佳的零-shot CIR性能。

  • LinCIR在FashionIQ上的表现超过了有监督方法。

➡️

继续阅读