跨模型理解视觉概念

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,大型多模态模型在生成、检测和分类视觉概念方面的能力是模型特定且不可转移的。通过对三种先进模型进行分析,发现新的词嵌入是模型特定且不可转移的。研究还展示了软提示微调方法在视觉概念学习任务中发现这些扰动解,而视觉概念的嵌入是不可转移的。

🎯

关键要点

  • 大型多模态模型通过微调单个词嵌入生成、检测和分类视觉概念。
  • 模型学习相似词语表示同一概念的能力是模型特定且不可转移的。
  • 对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析。
  • 新的词嵌入是模型特定且不可转移的。
  • 在四个标准数据集上针对40个不同视觉概念训练了4800个新的嵌入。
  • 在epsilon球内的任何先前嵌入的扰动都能生成、检测和分类任意概念。
  • 插入新模型的新的词嵌入时,针对原始模型的微调将失效。
  • 展示了软提示微调方法在视觉概念学习任务中发现扰动解,视觉概念的嵌入是不可转移的。
➡️

继续阅读