机器学习中解释性不可信的原因:对部分依赖图的敌对攻击
原文约300字/词,阅读约需1分钟。发表于: 。该论文提出了一种对机器学习任务中基于排列的解释方法的脆弱性进行揭示的对抗性框架,特别关注了偏依赖图。通过修改原始黑盒模型以操作外推领域的实例预测,该框架能产生欺骗性的偏依赖图,可掩盖歧视行为并保留原模型大部分预测,从而使黑盒模型在 PD 图等解释工具下显得中立。研究结果使用真实数据集进行验证,发现可有意隐藏预测器的歧视行为,提供了对监管机构和从业人员的管理洞察。
该论文提出了一种对机器学习任务中基于排列的解释方法的脆弱性进行揭示的对抗性框架,特别关注了偏依赖图。研究结果使用真实数据集进行验证,发现可有意隐藏预测器的歧视行为,提供了对监管机构和从业人员的管理洞察。