视觉与语言解码器是否平等使用图像和文本?它们的解释是否自洽?
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究探讨了视觉和语言模型在生成解释时的依赖程度,并评估了视觉和语言模型解码器的自我一致性。发现视觉和语言模型的自我一致性不如纯语言模型,对图像的贡献较小。对最新的视觉和语言模型解码器进行了基准测试,发现仍然存在困难现象。
🎯
关键要点
-
本研究探讨了视觉和语言模型在生成解释时的模态依赖程度。
-
评估了视觉和语言模型解码器的自我一致性。
-
发现视觉和语言模型的自我一致性不如纯语言模型。
-
视觉模型对图像的贡献远小于文本的贡献,尤其在解释生成方面。
-
在CoT解释设置中,这种差异尤为明显。
-
对最新的视觉和语言模型解码器进行了基准测试。
-
视觉和语言模型解码器在VALSE测试中仍面临许多困难现象。
➡️