小红花·文摘

本文利用卷积神经网络的权重分析来检测模型的偏差。通过玩具例子和性别识别案例研究，发现无需进行模型推理，只需查看权重即可判断模型是否存在偏差。在MNIST模型中，能够以超过99%的准确率检测出强烈或微弱的偏见，并以超过70%的准确率分类四个偏见水平。在面部模型中，实现了90%的准确率来区分针对亚洲人、黑人或白人的有偏见模型。