本文探讨了自然语言生成中的厌恶问题,指出通用的“有害性”分类器不足以评估。通过分析 Reddit 上的 Incel 社区数据,研究表明特定词汇索引方法能更有效地评估厌恶。同时介绍了 Biasly 数据集,旨在捕捉对女性的厌恶,适用于多种 NLP 任务,促进 AI 在偏见检测和消除中的社会价值。
完成下面两步后,将自动完成登录并继续当前操作。