BriefGPT - AI 论文速递 ·

零样本组图检索，考虑到查询目标之间的关系，利用遮罩图像文本对

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了一种新方法，通过多模态信息融合实现零样本组合图像检索（CIR），在CIRR和FashionIQ等数据集上表现优异。提出的SEARLE和LinCIR方法无需标记数据，利用视觉特征和文本描述提高检索准确性，实验结果显示这些方法在多个基准测试中超越了现有技术，展现出良好的泛化性能。

🎯

❓

零样本组合图像检索（CIR）是一种无需标记数据的图像检索方法，通过多模态信息融合来提高检索准确性。

SEARLE方法在CIRCO数据集上表现优异，超越了现有技术，能够有效利用视觉特征和文本描述进行检索。

LinCIR框架通过自掩蔽投影（SMP）方法，将文本潜在嵌入投影到标记嵌入空间，从而提高检索准确性。

Pic2Word方法在没有标记三元组的情况下，利用弱标记和未标记数据集训练出具有良好泛化性能的CIR模型。

TFCIR方法通过将查询翻译成易于理解的文本，提高计算效率并保持模型的泛化性。

iSEARLE方法将视觉信息映射到CLIP标记嵌入空间，结合相关说明，促进了零样本组合图像检索的研究。

🏷️