小红花·文摘

本文介绍了一种新型视觉语言预训练模型探测方法CoVLR，重点研究跨模态语义对齐机制。该方法通过meta-optimization提高了单模态检索准确性，同时保持跨模态能力。此外，研究引入了AlignMMBench基准，以评估中文视觉-语言模型的性能，并提出CritiqueVLM评估器，分析不同模型的能力和限制。

CAST：用于视觉语言模型的跨模态对齐相似性测试

BriefGPT - AI 论文速递 ·

本文研究了视觉语言模型（VLMs）在合成图像识别中的应用，提出了一种新型探测方法，并分析了跨模态语义对齐机制。研究发现，VLP模型主要对齐对象和视觉词，忽略全局语义，存在固定句子模式等问题。此外，提出的全Transformer模型在视觉-语言预训练中表现出色，增强了视觉关系分析能力。

VLM 注意到了什么？一个用于无噪音文本 - 图像破坏与评估的机制可解释性流程

BriefGPT - AI 论文速递 ·