小红花·文摘

大规模识别大型语言模型中的交互

The Berkeley Artificial Intelligence Research Blog ·

本研究解决了时间序列分类模型解释性不足的问题，揭示了扰动评价法在不同类别间的显著差异，并提出了带类感知惩罚项的评估框架，以更准确地评估特征归因效果。

评估时间序列归因中的类依赖扰动效应

BriefGPT - AI 论文速递 ·

本研究提出了一种新的成对Shapley值框架，旨在解决可解释人工智能中的可解释性和可扩展性问题。该方法通过比较特征归因与数据实例对，提供更直观的解释，降低计算开销，提升XAI的实际应用能力。

From Abstraction to Action: Pairwise Shapley Values for Explainable Artificial Intelligence

BriefGPT - AI 论文速递 ·

本研究探讨了上下文信息对物体识别模型准确性的影响，发现物体体积归因比上下文体积归因更显著，且上下文变化对模型性能的影响超出预期，为改进物体识别模型提供了新见解。

Lost in Context: The Impact of Context on Feature Attribution Methods for Object Recognition

BriefGPT - AI 论文速递 ·

该研究提出了一个基准测试框架，用于评估特征归因方法的效果，强调忠实度和可靠性。通过数学系统统一14种归因方法，提出基于贝叶斯视角的训练数据归因技术，并开发了开源库“dattri”，以简化数据归因分析，提升AI性能与安全性。

Quanda：用于训练数据归因评估及其应用的可解释性工具包

BriefGPT - AI 论文速递 ·

本研究通过引入Shapley交互（SIs）解决了Shapley值在特征归因和数据估值中的局限性，提升了对黑箱模型的理解。shapiq是一个开源Python包，整合算法，高效计算Shapley值和SIs，并提供基准测试工具评估性能。

shapiq: Shapley Interactions for Machine Learning

BriefGPT - AI 论文速递 ·

本文全面概述了计算机视觉中的可解释人工智能（XAI）方法，探讨了特征归因的挑战与进展，包括正式特征归因（FFA）和校准解释（CE）等新方法。研究表明，基于高斯过程回归的特征归因方法在准确性和计算成本上优于现有近似方法，强调了解释模型在高风险决策中的重要性及应用。

通过特征归因增强AI回归任务中的特征选择和可解释性

BriefGPT - AI 论文速递 ·

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间，但这两个目标是不同的，可能会导致虚假的解释感觉。研究还展示了实践中支持该现象普遍存在的证据。然而，亚空间激活干预在可解释性方面仍然适用。

对 Makelov 等人（2023 年）的 “可解释性幻觉” 论点的回应

BriefGPT - AI 论文速递 ·

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间，但这两个目标是不同的，可能导致虚假解释感觉。研究还发现亚空间干预可能是通过激活与模型输出因果断开的并行路径来实现的。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。研究还探讨了需要的额外证据来论证修补的亚空间是否忠实。

Patchscope：语言模型隐藏表示的统一检查框架

BriefGPT - AI 论文速递 ·

该文介绍了一种新的特征归因方法CAFE，能更好地识别合成表格数据中的冲突特征，具有最好的整体保真度和高的计算效率。该方法解决了现有方法中的三个限制，增强了鲁棒性，并增加了表面冲突特征的能力。

冲突感知特征解释

BriefGPT - AI 论文速递 ·

该研究提出了一种新的深度表格数据学习架构TabNet，采用顺序注意方法选择推理特征，实现了可解释性和更高效的学习。在各种表格数据集上，TabNet胜过其他神经网络和决策树变体，并提供了可解释的特征归因和对全局模型行为的深入认识。此外，该研究还展示了在未标记的数据丰富情况下，自监督学习可以显著提高性能。

基于神经网络的带真值表的规则模型

BriefGPT - AI 论文速递 ·