本文介绍了一种基于概念的可解释性方法,通过将其嵌入分解为高级概念,提供了一种深入研究基础模型内部的透视角度。作者提出了一种可组合概念抽取算法 (CCE),并在图像和文本数据上评估了其效果,结果表明 CCE 找到了更多可组合的概念表示,并在四个下游分类任务上取得了更好的准确率。
本研究将可解释性方法应用于Transformer-based语言模型的后向通道和梯度,发现梯度矩阵可以被看作是前向和后向通道输入的低秩线性组合,并开发了投影梯度到词汇项的方法。研究还探索了在语言模型的神经元中存储新信息的机制。
本文介绍了一种名为SyntaxShap的可解释性方法,用于在安全关键领域利用大型语言模型。该方法考虑了文本数据中的句法结构,并通过扩展Shapley值来考虑基于解析的句法依赖关系。通过基于模型的评估方法,作者比较了SyntaxShap与其他可解释性方法在多个度量标准上的表现。结果表明,SyntaxShap能够生成更忠实、连贯和可解释的预测解释,适用于自回归模型。
本文介绍了一种名为SyntaxShap的可解释性方法,用于在安全关键领域利用大型语言模型。该方法考虑了文本数据中的句法结构,并通过扩展Shapley值来考虑基于解析的句法依赖关系。研究结果表明,SyntaxShap能够生成更忠实、连贯和可解释的预测解释,适用于自回归模型。
本文介绍了一种新方法,用于生成用于3D物体检测的DetR-like ViT的显著性图。该方法基于原始注意力,比基于梯度的方法更高效。通过在nuScenes数据集上的测试,证明了该方法在视觉质量和定量指标方面优于其他可解释性方法。研究还展示了在转换器的不同层之间聚合注意力的重要性。这项工作有助于开发可解释的AI模型,提高人们对AI应用的信任。
本文提出了一种新的可解释性方法,通过在对抗训练的变分自编码器框架内结合潜空间的属性正则化,改进了医学成像中的人工智能模型。实验证明该方法在解决模糊重建问题和提高潜空间可解释性方面具有能力。同时,分析显示使用正则化潜空间进行心脏疾病分类的依赖程度,并展现了很好的解释性。
该研究提出了两个指标来评估深度神经网络的可解释性方法,并对几种最先进的解释性方法在ResNet-50上进行了分析。实验结果表明,提出的机器-中心策略有助于提高深度神经网络的信任度。
完成下面两步后,将自动完成登录并继续当前操作。