小红花·文摘

本文介绍了一系列基于不变风险最小化原则的模型无关解释方法，涵盖文本分类、概念提取和大型语言模型的解释技术。研究表明，适当的概念识别和局部解释方法能显著提高模型的可解释性和性能，并探讨了不同模型的解释复杂度及其对训练随机性的敏感性。