机器学习中解释性不可信的原因:对部分依赖图的敌对攻击

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

该论文提出了一种对机器学习任务中基于排列的解释方法的脆弱性进行揭示的对抗性框架,特别关注了偏依赖图。研究结果使用真实数据集进行验证,发现可有意隐藏预测器的歧视行为,提供了对监管机构和从业人员的管理洞察。

原文约300字/词,阅读约需1分钟。
阅读原文