本研究提出了一种基于自由论辩的图像分类器解释方法,旨在提高深度学习模型的透明度。通过代理之间的辩论,该方法能够更准确地反映分类器的推理过程,其评估结果优于传统的解释方法。
本研究探讨了区分人类生成文本与大型语言模型(LLM)生成文本的挑战,提出了基于LLM的检测和解释方法。结果表明,LLM在检测自身生成文本时表现优于他人生成文本,但仍需改进。将二分类任务扩展为三分类任务显著提高了检测准确性和解释质量。
本研究评估了机器学习模型解释方法的特征重要性估计质量,发现这些估计对数据属性敏感,并在不同情境下存在显著差异,为选择合适的解释方法提供了重要见解。
本研究提出了SemanticLens,一种通用的神经网络解释方法,旨在解决人工智能模型的不透明性问题。该方法通过将隐藏知识映射到语义结构化的多模态空间,增强模型的可验证性和信任度,促进组件级理解,填补人工智能与传统工程系统之间的信任差距。
本研究提出了一种快速且具不确定性感知的解释方法,结合了ConformaSight的扰动技术与校准解释的核心元素,显著提升了机器学习模型在高风险实时应用中的计算效率。
本研究提出了三种新型解释方法,解决了现有推理解释方法在特征之间存在约束时可能导致冗余或多余解释的问题。通过引入解释的覆盖概念,可以有效筛选冗余解释,并分析了不同类型解释的复杂性及其形式属性。这项工作对提高分类器的可解释性具有重要意义。
近年来,基于深度学习模型的漏洞检测器取得了显著效果,但其决策过程不透明且难以理解。研究者提出了各种解释方法,但对关键特征的深入评估仍然缺乏。本研究通过两个指标评估了十种解释方法的性能,发现准确度无法充分评估这些方法。同时,所有方法在与漏洞相关的代码行的准确度上表现较差,可能是因为解释器选择重要特征和深度学习检测器学习到的不相关的工件方面的低效性。
该研究提出了一种新的基于图像的推荐系统解释方法,通过正样本 - 无标签学习技术选择可信负样本的精细子集,证明了该方法可以提高推荐系统的解释性。
本论文提出了基于视觉显著性地图的人脸识别解释框架,包括定义解释方法、提出新模型CorrRISE和新评估方法。实验证明,CorrRISE生成有洞察力的显著性地图,在相似性地图方面表现出卓越性能。
近年来,基于深度学习模型的漏洞检测器取得了显著效果,但决策过程不透明且难以理解。研究者提出了各种解释方法,但对关键特征的评估仍然不足。本研究通过定量指标评估了十种漏洞检测器解释方法的性能,发现准确度无法充分评估这些方法。同时,发现所有方法在与漏洞相关的代码行的准确度上表现较差,归因于解释器选择重要特征和深度学习检测器学习到的不相关的工件方面的低效性。
该研究提出了一种新的解释方法FGGB,通过梯度反向传播生成准确且深入的相似性和差异性显著性地图,用以解释人脸识别系统的决策。实验证明,FGGB在相似性和差异性显著性地图方面的性能优于当前最先进的可解释人脸验证方法。
研究发现文本分类器中的解释方法易受干扰,需要进行忠实和稳健的解释方法以防止解释被扰动改变。新的解释攻击算法TEF可以改变解释结果但保持分类器预测不变。评估发现所有模型和解释方法都容易受到TEF扰动的影响,表明文本分类器中的解释非常脆弱。
本文研究了机器学习模型解释方法对模型可解释性的影响,并通过模拟测试评估了五种解释方法的有效性。结果显示LIME方法在分类表格方面有效,Prototype方法在反事实模拟测试中也有效。需要谨慎处理解释方法的评估指标,当前方法仍有改进空间。
Counterfactuals是一个R包,提供了模块化和统一的R6接口来解释Counterfactual解释方法,并提出了一些可选的方法学扩展。它还将这些方法应用于不同的情境,并对解释质量和运行效率进行了评估。
本文探讨了神经网络的解释方法,包括特征可视化、像素归因、概念检测和对抗样本。强调通过样本的剔除或添加来评估模型的重要性,并指出在模型参数调整中保持解释性对推动通用人工智能的发展至关重要。
完成下面两步后,将自动完成登录并继续当前操作。