CAST:用于视觉语言模型的跨模态对齐相似性测试
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了跨模态对齐相似性测试(CAST),用于评估视觉语言模型(VLM)在视觉问答任务(VQA)中的自我一致性。
🎯
关键要点
- 本研究提出了跨模态对齐相似性测试(CAST)。
- CAST用于评估视觉语言模型(VLM)在视觉问答任务(VQA)中的自我一致性。
- 研究针对VLM在VQA评价中的不足进行探讨。
- CAST通过文本、图像或两者结合的方式评估模型识别场景间相似性的能力。
- 研究关注模型输出的内部一致性,以验证自我一致性与能力之间的关系。
🏷️
标签
➡️