解释性中的性别偏见:研究后置方法中的性能差异

📝

内容提要

本研究解决了解释方法在不同子群体间性能差异的公平性问题,展示了广泛使用的后置特征归因方法在信实性、稳健性和复杂性方面存在显著的性别差异。这些差异在模型经过无偏数据集预训练或微调后依然存在,强调了在发展和应用解释性方法时需关注解释的公平性,以免在关键领域产生偏见性的结果。

➡️

继续阅读