CAST:用于视觉语言模型的跨模态对齐相似性测试
原文中文,约200字,阅读约需1分钟。发表于: 。本研究针对视觉语言模型(VLM)在视觉问答任务(VQA)评价中的不足,提出了跨模态对齐相似性测试(CAST),以探测VLM在不同模态间的自我一致性。CAST通过文本、图像或两者结合的方式评估模型识别场景间相似性的能力,并关注其输出的内部一致性,从而验证在自我一致性与能力之间的关系。
本研究提出了跨模态对齐相似性测试(CAST),用于评估视觉语言模型(VLM)在视觉问答任务(VQA)中的自我一致性。