理解大型语言模型等复杂机器学习系统的行为是现代人工智能的一大挑战。可解释性研究旨在提高决策过程的透明度,采用特征归因、数据归因和机制可解释性等方法分析模型行为。然而,特征和数据量的增加使分析变得更加复杂。SPEX和ProxySPEX算法通过消融技术有效识别关键交互,推动了可解释性研究的发展。
本研究解决了时间序列分类模型解释性不足的问题,揭示了扰动评价法在不同类别间的显著差异,并提出了带类感知惩罚项的评估框架,以更准确地评估特征归因效果。
本研究提出了一种新的成对Shapley值框架,旨在解决可解释人工智能中的可解释性和可扩展性问题。该方法通过比较特征归因与数据实例对,提供更直观的解释,降低计算开销,提升XAI的实际应用能力。
本研究探讨了上下文信息对物体识别模型准确性的影响,发现物体体积归因比上下文体积归因更显著,且上下文变化对模型性能的影响超出预期,为改进物体识别模型提供了新见解。
该研究提出了一个基准测试框架,用于评估特征归因方法的效果,强调忠实度和可靠性。通过数学系统统一14种归因方法,提出基于贝叶斯视角的训练数据归因技术,并开发了开源库“dattri”,以简化数据归因分析,提升AI性能与安全性。
本研究通过引入Shapley交互(SIs)解决了Shapley值在特征归因和数据估值中的局限性,提升了对黑箱模型的理解。shapiq是一个开源Python包,整合算法,高效计算Shapley值和SIs,并提供基准测试工具评估性能。
本文全面概述了计算机视觉中的可解释人工智能(XAI)方法,探讨了特征归因的挑战与进展,包括正式特征归因(FFA)和校准解释(CE)等新方法。研究表明,基于高斯过程回归的特征归因方法在准确性和计算成本上优于现有近似方法,强调了解释模型在高风险决策中的重要性及应用。
最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间,但这两个目标是不同的,可能会导致虚假的解释感觉。研究还展示了实践中支持该现象普遍存在的证据。然而,亚空间激活干预在可解释性方面仍然适用。
最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间,但这两个目标是不同的,可能导致虚假解释感觉。研究还发现亚空间干预可能是通过激活与模型输出因果断开的并行路径来实现的。然而,这并不意味着亚空间激活干预在可解释性方面本质上不适用。研究还探讨了需要的额外证据来论证修补的亚空间是否忠实。
该文介绍了一种新的特征归因方法CAFE,能更好地识别合成表格数据中的冲突特征,具有最好的整体保真度和高的计算效率。该方法解决了现有方法中的三个限制,增强了鲁棒性,并增加了表面冲突特征的能力。
该研究提出了一种新的深度表格数据学习架构TabNet,采用顺序注意方法选择推理特征,实现了可解释性和更高效的学习。在各种表格数据集上,TabNet胜过其他神经网络和决策树变体,并提供了可解释的特征归因和对全局模型行为的深入认识。此外,该研究还展示了在未标记的数据丰富情况下,自监督学习可以显著提高性能。
完成下面两步后,将自动完成登录并继续当前操作。