CoVLM:通过通信解码在大型语言模型中组合视觉实体和关系
原文约300字/词,阅读约需1分钟。发表于: 。我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。
该文介绍了一种基于学习的知识表示方法——潜在的组合语义嵌入z*,并证明了它可以通过梯度下降的迭代优化被发现。实验证明,z*能够表示多达100个语义的高维嵌入,并在COCO-Stuff数据集上表现出优异的性能。