注意!PixelSHAP揭示视觉-语言模型的关注点

📝

内容提要

本研究解决了视觉-语言模型(VLMs)解释性的不足,强调在高风险应用中的重要性。研究提出了一种模型无关的框架PixelSHAP,通过系统性扰动图像对象来量化其对模型反应的影响,增强了对模型决策的透明度。实验结果表明,PixelSHAP在自动驾驶领域有效提升了解释性,并为未来研究提供了开放源代码实现。

🏷️

标签

➡️

继续阅读