机器之心 ·

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

北京大学彭宇新教授团队研究了多轮组合图像检索，提出FashionMT数据集和MAI模型，解决了历史上下文缺失和数据规模限制的问题。实验结果显示，MAI在FashionMT基准上的召回率提升了8%，有效优化了多模态检索性能。

🎯

关键要点

北京大学彭宇新教授团队研究了多轮组合图像检索，提出FashionMT数据集和MAI模型。
FashionMT数据集解决了历史上下文缺失和数据规模限制的问题。
MAI模型在FashionMT基准上的召回率提升了8%，优化了多模态检索性能。
多轮组合图像检索（MTCIR）通过结合参考图像和修改文本来定位目标图像。
现有MTCIR方法存在历史上下文缺失和数据规模受限的问题。
FashionMT数据集具有回溯性和多样化的特点，包含大量电商图像和类别。
MAI模型引入了两阶段语义聚合（TSA）和循环组合损失（CCL）来优化检索。
动态记忆压缩机制（MIO）有效减少了历史数据的存储空间。
FashionMT数据集的规模和丰富性显著超越现有数据集，提供了更全面的数据支持。
MAI模型通过多模态语义聚合和多轮迭代优化提升了检索性能。

🏷️

继续阅读

2025年全年独立显卡出货量达4,428万张但我怀疑不少是买来训练/跑模型的
预计2025年台式机独立显卡出货量将达4428万张，英伟达占92%。尽管RTX 50系列显卡因性能强大而受欢迎，但因内存短缺价格高企，开发者和小企业需求增...
研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
续航 1704 公里！18.68 万元的小鹏 G6，成为了全球最长续航 SUV
小鹏在广州发布G6超级增程版，起售价18.68万元，配备60升油箱和55.8度电池，综合续航1704公里。支持800V快充，12分钟充电可达80%。搭载自...
Docker 的十年：重塑云原生基础设施的“底层炼金术”
自2013年问世以来，Docker已成为开发者的重要工具，支持超过1400万个镜像。其核心技术挑战包括在非Linux系统上的容器化、网络连接和存储管理。D...
硬核测评：哪门语言最受 AI 宠爱？13 种语言横向对比，Go 表现如何？
随着AI编程工具的普及，编程语言的选择变得至关重要。Yusuke Endoh的报告评测了13种语言，结果显示动态语言如Ruby和Python表现优异，而G...

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

内容提要

关键要点

标签

继续阅读