本研究提出了一种基于范畴的解释函子的方法,以提高可解释人工智能的解释一致性和可靠性。验证结果表明,该方法在合成基准测试中有效减少了矛盾和不忠实的解释生成。
该研究论文介绍了一种用于评估模型更新过程中特征归因解释的向后兼容性的定量度量指标,并提出了BCXR模型训练方法,通过设计替代损失来改善模型之间的解释一致性,实验证明BCXR方法在预测性能和向后兼容性之间取得了优越的平衡。
完成下面两步后,将自动完成登录并继续当前操作。