ReCALL框架通过“诊断-生成-校准”闭环解决了多模态大模型在检索中的范式冲突,提升了细粒度推理能力,显著提高了组合图像检索的性能,标志着大模型向下游任务迁移的新阶段。
本研究提出了TMCIR框架,解决组合图像检索中视觉与文本信息融合的偏差问题。通过意图感知的跨模态对齐和自适应标记融合,提升了特征检索的平衡性与准确性,实验结果表明其在捕捉用户意图方面优于现有方法。
本研究提出了FineCIR框架,旨在解决组合图像检索中因粗粒度修改文本导致的检索不准确问题。通过细粒度数据标注,FineCIR在FashionIQ和CIRR数据集上显著提高了检索精度,优于现有方法。
本文介绍了一种新方法,通过多模态信息融合实现零样本组合图像检索(CIR),在CIRR和FashionIQ等数据集上表现优异。提出的SEARLE和LinCIR方法无需标记数据,利用视觉特征和文本描述提高检索准确性,实验结果显示这些方法在多个基准测试中超越了现有技术,展现出良好的泛化性能。
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法(TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。实验证明该方法在多个基准测试上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
本文提出了一种基于排名感知的不确定性方法,通过建模多对多的对应关系,学习特征的随机排名列表,并对源输入和目标图像的分布表示进行规范化。在组合图像检索的两个公共数据集上取得了显著结果。
完成下面两步后,将自动完成登录并继续当前操作。