VISTA:用于解释多模态模型的视觉和文本注意力数据集
发表于: 。本文解决了视觉与语言模型(VLMs)作为黑箱的透明性和可解释性问题。我们提出了一个图像-文本对齐的人类视觉注意力数据集,以揭示图像区域与文本段落之间的具体关联,并与模型生成的热图进行比较,从而深入理解模型的决策过程。这一研究将有助于提高模型的透明度和信任度。
本文解决了视觉与语言模型(VLMs)作为黑箱的透明性和可解释性问题。我们提出了一个图像-文本对齐的人类视觉注意力数据集,以揭示图像区域与文本段落之间的具体关联,并与模型生成的热图进行比较,从而深入理解模型的决策过程。这一研究将有助于提高模型的透明度和信任度。