在多模态大型语言模型崛起时代重新思考稀疏词汇表示用于图像检索
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对图像检索领域中的稀疏词汇表示进行了重新思考,填补了利用多模态大型语言模型提取图像特征的空白。通过应用数据增强技术和关键字扩展,我们的图像检索方法在MS-COCO、PASCAL VOC和NUS-WIDE数据集上,比传统视觉-语言模型方法展现了更高的精准度和召回率,显示了该工作在关键词为基础的图像检索场景中的重要影响。
本研究重新思考了图像检索中的稀疏词汇表示,利用多模态大型语言模型提取图像特征。通过数据增强和关键字扩展,该方法在多个数据集上展现了更高的精准度和召回率,对关键词为基础的图像检索场景有重要影响。