Img-Diff:针对多模态大型语言模型的对比数据合成
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对多模态大型语言模型(MLLMs)在数据质量方面的不足,提出了一种新颖的数据集Img-Diff,以提高细粒度图像识别的能力。通过分析相似图像之间的对象差异,研究展示了如何通过对比学习和图像差异描述来优化模型性能,结果显示我们的模型在多项图像差异和视觉问答任务中显著超越了现有的最先进模型。
该研究通过引入名为Img-Diff的新数据集,利用对比学习和图像差异字幕的见解,提高了细粒度图像识别的性能。研究分析了相似图像之间的物体差异,并使用图像编辑技术创建了突出物体替换的相似图像对。通过差异区域生成器和差异字幕生成器,生成了一小而高质量的数据集。使用该数据集对现有的模型进行微调,取得了在多项图像差异和视觉问答任务中超越SOTA模型的全面性能改进。此外,研究还探索了实现图像差异数据的替代方法,并进行了全面评估以确保数据集的多样性、质量和鲁棒性。