迈向 “公正解释” 的概念化:针对内容审核员的反亚裔仇恨言论解释的不对称影响
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的“公平解释”评估方法,应用于潜在的仇恨言论的内容审查,发现显著性地图通常表现更好,显示出较少的不公平证据。
🎯
关键要点
- 该研究提出了一种新的“公平解释”评估方法。
- 研究集中在如何提高人类与AI任务的性能,并评估公平性指标。
- 公平解释的特征是对特定人群不产生负面影响的解释。
- 评估方法考虑了准确率、标签时间以及对不同用户群体的心理影响。
- 应用于潜在的仇恨言论内容审查,分析了对亚洲和非亚洲代理审查员的影响。
- 显著性地图在表现上优于反事实解释,显示出较少的不公平证据。
➡️