全球可解释的人工智能方法能揭示大语言模型中的注入偏见吗?SHAP与规则提取与RuleSHAP比较
📝
内容提要
本研究解决了当前可解释人工智能(XAI)工具无法有效检测大语言模型(LLMs)中的偏见这一问题。通过首次提出文本到序数的映射策略,该 paper 使用全球 XAI 方法(如 RuleFit 和 SHAP)分析在 LLMs 中注入的非线性偏见,并提出了结合了 SHAP 和 RuleFit 的新算法 RuleSHAP。重要发现表明,RuleSHAP 在检测注入偏见方面效果显著提升,平均提高了94%的检测能力。
➡️