本文研究了视觉语言模型(VLMs)在合成图像识别中的应用,提出了一种新型探测方法,并分析了跨模态语义对齐机制。研究发现,VLP模型主要对齐对象和视觉词,忽略全局语义,存在固定句子模式等问题。此外,提出的全Transformer模型在视觉-语言预训练中表现出色,增强了视觉关系分析能力。
完成下面两步后,将自动完成登录并继续当前操作。