跨模型理解视觉概念
原文中文,约400字,阅读约需1分钟。发表于: 。大型多模态模型通过仅微调单个词嵌入就能生成、检测和分类新的视觉概念,但我们发现模型学习相似的词语表示同一概念的能力是模型特定且不可转移的。我们对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析,发现新的词嵌入是模型特定且不可转移的。我们在四个标准数据集上针对 40 个不同的视觉概念训练了 4800 个新的嵌入,发现在一个 epsilon...
研究发现,大型多模态模型在生成、检测和分类视觉概念方面的能力是模型特定且不可转移的。通过对三种先进模型进行分析,发现新的词嵌入是模型特定且不可转移的。研究还展示了软提示微调方法在视觉概念学习任务中发现这些扰动解,而视觉概念的嵌入是不可转移的。