本文提出了一种基于视觉显著性的人脸识别解释框架,利用CorrRISE算法生成显著性图,揭示人脸的相似与不同区域。实验证明该方法在解释人脸识别方面优于其他方法,提供了深入的洞察力。
本文探讨大型语言模型(LLMs)的忠诚度评估,提出了一种基于自我一致性的测量方法CC-SHAP,强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释(NLEs)重建输入,评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系,并提出生成解释框架xLLM以提高解释质量。
该研究提出了一种通用解释框架,可用于任何黑盒机器学习算法,并特化于找到对分类器决策最负责的图像部分。该方法基于明确且可解释的图像扰动,是模型无关且可测试的。
完成下面两步后,将自动完成登录并继续当前操作。