小红花·文摘

本文探讨了反事实解释的脆弱性和易受操纵的问题，并提出了训练明显公平模型的新目标。实验发现，这些模型可能会不公平地提供低成本的救济措施给特定的子群体，需要探索健壮性反事实解释。