基于 LMM 的知识在图像分类任务中的利用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。实验结果表明,该方法在全景叙事连接、指称表达分割和全景分割任务上表现卓越。

🎯

关键要点

  • 提出了一种新的方法来从长描述中密集地连接视觉实体。

  • 利用大型多模态模型提取语义名词。

  • 利用无类别分割模型生成实体级分割。

  • 采用多模态特征融合模块将语义名词与分割蒙版关联。

  • 使用颜色映射对实体分割蒙版进行编码,保留高分辨率蒙版特征。

  • 使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,计算效率更高。

  • 实验结果表明,该方法在全景叙事连接、指称表达分割和全景分割任务上表现卓越。

➡️

继续阅读