小红花·文摘

本文探讨了自然语言生成中的厌恶问题，指出通用的“有害性”分类器不足以评估。通过分析 Reddit 上的 Incel 社区数据，研究表明特定词汇索引方法能更有效地评估厌恶。同时介绍了 Biasly 数据集，旨在捕捉对女性的厌恶，适用于多种 NLP 任务，促进 AI 在偏见检测和消除中的社会价值。