通过解释一致性评估提高网络可解释性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了深度神经网络在预测过程中的透明性不足问题,提出了一种新颖的框架,通过引入解释一致性度量来自适应地重标记训练样本。研究表明,该框架能够在不增加额外监督的情况下,提升模型性能,同时提供更具解释性的激活热图,具有较高的识别准确性和更强的网络鲁棒性。
该论文提出了一种新的概念学习框架,用于增强视觉分类任务中模型的可解释性和性能。通过将非监督解释生成器附加到主分类器网络中,并利用对抗训练的方式,使模型从潜在表征中提取视觉概念并与人可解释的视觉属性隐式对齐。实验结果验证了该方法的稳健性和一致的概念激活。同时研究了对抗训练协议中的扰动对分类和概念获取的影响。该研究为构建具有任务对齐概念表征的内在可解释深度视觉模型提供了显著进展,为开发可信任的人工智能提供了关键支持。