搜索图片有新招了!北大提出图像检索新方法 | ECCV 2024

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

北京大学和南洋理工大学的研究团队提出了一种新的通用风格检索任务,通过构建多样化的查询图片数据集和即插即用的框架,解决了传统检索模型无法兼容不同类型查询向量的问题。实验证明该框架能够显著增强现有检索模型的泛化能力,并提升模型的检索精度。

🎯

关键要点

  • 北京大学和南洋理工大学提出了一种新的通用风格检索任务,称为通用风格检索(Style-Diversified Retrieval)。
  • 新检索任务要求模型在面对多样化查询条件时,依然能够精准找图。
  • 传统图片检索主要依赖文本查询,方法单一,性能一般。
  • 新方法支持多样化查询风格,包括草图、艺术画、低分辨率图像和文本等,甚至支持组合查询。
  • 团队构建了专有的检索数据集DSR,包含10,000张自然图片及四种检索风格。
  • FreestyleRet框架通过提取图片风格并注入,解决了传统检索模型无法兼容不同类型查询向量的问题。
  • FreestyleRet框架包含三个模块:风格提取模块、风格空间构建模块和风格启发的提示微调模块。
  • 使用格拉姆矩阵进行风格提取,并通过K-Means聚类构建风格空间。
  • 在推理过程中,风格空间计算查询向量在基向量上的投影,实现对未知风格的量化。
  • FreestyleRet框架在多个数据集上显著提升了检索模型的泛化能力,提升幅度为2-4%。
  • 模型在多种检索向量共同输入的情况下,进一步提升了检索精度。
  • 实验结果表明,FreestyleRet结构能够有效分离查询向量中的风格信息与语义信息。
➡️

继续阅读