通过LIME引导的模型优化实现可解释性与鲁棒性的统一

📝

内容提要

本文探讨了深度学习模型中可解释性与鲁棒性之间的复杂关系,针对深度学习模型在面临对抗攻击和误导性特征依赖等漏洞提出了一种新框架。该方法采用局部可解释模型无关解释(LIME),通过迭代优化模型并减少对无关特征的依赖,实验证明该框架不仅提升了可解释性,还显著增强了模型的鲁棒性和对分布外数据的泛化能力。

➡️

继续阅读