小红花·文摘

该论文提出了一种新的概念学习框架，通过将非监督解释生成器附加到主分类器网络中，利用对抗训练提高了视觉分类任务中模型的可解释性和性能。实验结果验证了该方法的稳健性和一致的概念激活，并研究了对抗训练协议中扰动对分类和概念获取的影响。这一研究为开发可信任的人工智能提供了关键支持。