💡
原文中文,约4900字,阅读约需12分钟。
📝
内容提要
北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型,解决了历史上下文缺失和数据规模限制的问题。实验结果显示,MAI在FashionMT基准上的召回率提升了8%,有效优化了多模态检索性能。
🎯
关键要点
- 北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型。
- FashionMT数据集解决了历史上下文缺失和数据规模限制的问题。
- MAI模型在FashionMT基准上的召回率提升了8%,优化了多模态检索性能。
- 多轮组合图像检索(MTCIR)通过结合参考图像和修改文本来定位目标图像。
- 现有MTCIR方法存在历史上下文缺失和数据规模受限的问题。
- FashionMT数据集具有回溯性和多样化的特点,包含大量电商图像和类别。
- MAI模型引入了两阶段语义聚合(TSA)和循环组合损失(CCL)来优化检索。
- 动态记忆压缩机制(MIO)有效减少了历史数据的存储空间。
- FashionMT数据集的规模和丰富性显著超越现有数据集,提供了更全面的数据支持。
- MAI模型通过多模态语义聚合和多轮迭代优化提升了检索性能。
➡️