北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型,解决了历史上下文缺失和数据规模限制的问题。实验结果显示,MAI在FashionMT基准上的召回率提升了8%,有效优化了多模态检索性能。

🎯

关键要点

  • 北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型。
  • FashionMT数据集解决了历史上下文缺失和数据规模限制的问题。
  • MAI模型在FashionMT基准上的召回率提升了8%,优化了多模态检索性能。
  • 多轮组合图像检索(MTCIR)通过结合参考图像和修改文本来定位目标图像。
  • 现有MTCIR方法存在历史上下文缺失和数据规模受限的问题。
  • FashionMT数据集具有回溯性和多样化的特点,包含大量电商图像和类别。
  • MAI模型引入了两阶段语义聚合(TSA)和循环组合损失(CCL)来优化检索。
  • 动态记忆压缩机制(MIO)有效减少了历史数据的存储空间。
  • FashionMT数据集的规模和丰富性显著超越现有数据集,提供了更全面的数据支持。
  • MAI模型通过多模态语义聚合和多轮迭代优化提升了检索性能。

延伸问答

FashionMT数据集的主要特点是什么?

FashionMT数据集具有回溯性和多样化的特点,包含大量电商图像和类别,规模显著超越现有数据集。

MAI模型是如何优化多轮组合图像检索的?

MAI模型通过引入两阶段语义聚合(TSA)和循环组合损失(CCL)来优化多轮组合图像检索,提升检索性能。

多轮组合图像检索(MTCIR)面临哪些挑战?

MTCIR面临历史上下文缺失和数据规模受限的问题,这影响了检索的准确性和效率。

MAI模型在FashionMT基准上的实验结果如何?

MAI模型在FashionMT基准上的召回率平均提升了8%,优于现有方法。

FashionMT数据集是如何构建的?

FashionMT数据集通过收集现有单轮组合图像检索数据集和从电商平台爬取图像及文本构建而成。

动态记忆压缩机制(MIO)在MAI模型中有什么作用?

MIO机制有效减少了历史数据的存储空间,同时保留了多轮交互中的关键信息。

➡️

继续阅读