💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型,解决了历史上下文缺失和数据规模限制的问题。实验结果显示,MAI在FashionMT基准上的召回率提升了8%,有效优化了多模态检索性能。

🎯

关键要点

  • 北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型。
  • FashionMT数据集解决了历史上下文缺失和数据规模限制的问题。
  • MAI模型在FashionMT基准上的召回率提升了8%,优化了多模态检索性能。
  • 多轮组合图像检索(MTCIR)通过结合参考图像和修改文本来定位目标图像。
  • 现有MTCIR方法存在历史上下文缺失和数据规模受限的问题。
  • FashionMT数据集具有回溯性和多样化的特点,包含大量电商图像和类别。
  • MAI模型引入了两阶段语义聚合(TSA)和循环组合损失(CCL)来优化检索。
  • 动态记忆压缩机制(MIO)有效减少了历史数据的存储空间。
  • FashionMT数据集的规模和丰富性显著超越现有数据集,提供了更全面的数据支持。
  • MAI模型通过多模态语义聚合和多轮迭代优化提升了检索性能。
➡️

继续阅读