关于 CLIP 在组合逻辑推理中的潜力
原文中文,约300字,阅读约需1分钟。发表于: 。本文探讨使用 OpenAI 的 CLIP 进行逻辑连贯的基于视觉的推理的可能性。为此,我们明确了术语,并对 CLIP 潜在空间中嵌入的几何分析进行了配置,以使系统在逻辑上连贯。我们的主要结论是,通常配置的 CLIP 无法执行这种推理。
CLIP(Contrastive Language-Image Pre-training)是一种多模态视觉模型,通过CLIP Surgery方法提升了解释性和性能。在开放词汇任务中,获得了显着提高,如NUS-Wide多标签识别上的4.41%平均精度提升,Cityscapes开放词汇语义分割任务上的mIoU超过了现有方法的8.74%。