机器之心 ·

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

北京大学彭宇新教授团队研究了多轮组合图像检索，提出FashionMT数据集和MAI模型，解决了历史上下文缺失和数据规模限制的问题。实验结果显示，MAI在FashionMT基准上的召回率提升了8%，有效优化了多模态检索性能。

🎯

关键要点

北京大学彭宇新教授团队研究了多轮组合图像检索，提出FashionMT数据集和MAI模型。
FashionMT数据集解决了历史上下文缺失和数据规模限制的问题。
MAI模型在FashionMT基准上的召回率提升了8%，优化了多模态检索性能。
多轮组合图像检索（MTCIR）通过结合参考图像和修改文本来定位目标图像。
现有MTCIR方法存在历史上下文缺失和数据规模受限的问题。
FashionMT数据集具有回溯性和多样化的特点，包含大量电商图像和类别。
MAI模型引入了两阶段语义聚合（TSA）和循环组合损失（CCL）来优化检索。
动态记忆压缩机制（MIO）有效减少了历史数据的存储空间。
FashionMT数据集的规模和丰富性显著超越现有数据集，提供了更全面的数据支持。
MAI模型通过多模态语义聚合和多轮迭代优化提升了检索性能。

❓

延伸问答

FashionMT数据集的主要特点是什么？

FashionMT数据集具有回溯性和多样化的特点，包含大量电商图像和类别，规模显著超越现有数据集。

MAI模型是如何优化多轮组合图像检索的？

MAI模型通过引入两阶段语义聚合（TSA）和循环组合损失（CCL）来优化多轮组合图像检索，提升检索性能。

多轮组合图像检索（MTCIR）面临哪些挑战？

MTCIR面临历史上下文缺失和数据规模受限的问题，这影响了检索的准确性和效率。

MAI模型在FashionMT基准上的实验结果如何？

MAI模型在FashionMT基准上的召回率平均提升了8%，优于现有方法。

FashionMT数据集是如何构建的？

FashionMT数据集通过收集现有单轮组合图像检索数据集和从电商平台爬取图像及文本构建而成。

动态记忆压缩机制（MIO）在MAI模型中有什么作用？

MIO机制有效减少了历史数据的存储空间，同时保留了多轮交互中的关键信息。

🏷️

继续阅读

教AI模型说“我不确定”
麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”（RLCR），该方法提高了AI模型的信心估计准确性，减少了90%的校准误差，同时保持或提...
AWS Bedrock如何塑造模型上下文协议
在最近的MCP峰会上，AWS的Luca Chang讨论了MCP协议的重要性及其在人工智能中的应用。MCP已成为连接AI模型与工具的行业标准，开发者通过多样...
使用FastAPI训练、服务和部署Scikit-learn模型
本文介绍了如何使用FastAPI训练、服务和部署Scikit-learn模型。首先，创建项目结构并安装依赖。然后，使用乳腺癌数据集训练随机森林分类器并保存...
神秘模型「大象」：仅100B拿下SOTA，Token效率超高！
蚂蚁Inclusion AI团队推出了名为「大象」的AI模型，大小仅100B，具备高效的代码生成和修复能力。实测显示，「大象」在处理代码、会议纪要和数据分...
Anthropic最危险的AI模型刚刚落入错误之手
Anthropic的Mythos AI模型被一小组未经授权的用户访问，该小组利用第三方承包商的访问权限和网络侦查工具进入了该模型。Anthropic正在调...
国产多模态Agent拿下医学分割SOTA！不用改模型、不加token
浙江大学和上海人工智能实验室提出的IBISAgent框架，将医学图像分割重新定义为多步视觉决策过程，克服了现有方法的局限。通过冷启动和强化学习，IBISA...