注意!PixelSHAP揭示视觉-语言模型的关注点
📝
内容提要
本研究解决了视觉-语言模型(VLMs)解释性的不足,强调在高风险应用中的重要性。研究提出了一种模型无关的框架PixelSHAP,通过系统性扰动图像对象来量化其对模型反应的影响,增强了对模型决策的透明度。实验结果表明,PixelSHAP在自动驾驶领域有效提升了解释性,并为未来研究提供了开放源代码实现。
🏷️
标签
➡️