小红花·文摘

本文研究了视觉语言模型（VLMs）在合成图像识别中的应用，提出了一种新型探测方法，并分析了跨模态语义对齐机制。研究发现，VLP模型主要对齐对象和视觉词，忽略全局语义，存在固定句子模式等问题。此外，提出的全Transformer模型在视觉-语言预训练中表现出色，增强了视觉关系分析能力。