理解大型语言模型等复杂机器学习系统的行为是现代人工智能的一大挑战。可解释性研究旨在提高决策过程的透明度,采用特征归因、数据归因和机制可解释性等方法分析模型行为。然而,特征和数据量的增加使分析变得更加复杂。SPEX和ProxySPEX算法通过消融技术有效识别关键交互,推动了可解释性研究的发展。
本研究提出了一种基于采样的协议,旨在改善自动决策中的可验证计算,提升速度、成本和简易性,并提供应对非确定性问题的策略。
本研究提出了一种名为SPEX的模型无关交互归因算法,旨在解决现有解释方法在处理大型输入时的局限性。SPEX通过稀疏傅里叶变换高效识别重要特征交互,实验结果显示其在重建模型输出方面比边际归因方法提高了20%。
完成下面两步后,将自动完成登录并继续当前操作。