机器之心 ·

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

北京大学彭宇新教授团队提出的细粒度多模态大模型Finedefics，解决了多模态大模型在细粒度视觉识别中的不足。通过构建视觉对象的细粒度属性知识和对比学习，Finedefics在多个数据集上的识别准确率平均达到76.84%，显著优于其他模型。

🎯

🔎

细粒度视觉识别在多个领域具有广泛的应用价值，如生物分类、汽车识别等。通过精确区分同一类别下的不同子类别，Finedefics能够提升相关行业的自动化水平和智能化程度，推动技术的实际应用。

Finedefics通过对比学习和属性描述构建，解决了视觉对象与细粒度子类别未对齐的问题。这种方法不仅提高了模型的识别准确率，还为未来的多模态大模型研究提供了新的思路，值得关注其后续发展。

尽管多模态大模型在视觉问答等任务上表现良好，但在细粒度视觉识别上仍存在局限。Finedefics的研究揭示了这一领域的关键挑战，强调了对细粒度属性知识的重视，提示研究者在模型设计时需考虑这些因素。

❓

Finedefics模型通过构建视觉对象的细粒度属性知识和对比学习，解决了多模态大模型在细粒度视觉识别中的不足。

Finedefics在多个数据集上的平均识别准确率达到了76.84%。

细粒度视觉识别能够区分同一粗粒度大类下的不同细粒度子类别，具有重要的研究和应用价值。

Finedefics通过提示大语言模型构建细粒度属性知识，并利用对比学习实现数据与知识的协同训练，优化了视觉对象与细粒度子类别的对齐效果。

Finedefics的构建过程包含属性描述构建和属性增强对齐两个主要步骤。

多模态大模型在细粒度视觉识别上存在识别粒度粗的局限性，主要由于训练数据的细粒度子类别标注成本巨大。

🏷️