BriefGPT - AI 论文速递 ·

PejorativITy: 消除贬低性别词汇以提高对意大利推文中的厌女植入的检测

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了自然语言生成中的厌恶问题，指出通用的“有害性”分类器不足以评估。通过分析 Reddit 上的 Incel 社区数据，研究表明特定词汇索引方法能更有效地评估厌恶。同时介绍了 Biasly 数据集，旨在捕捉对女性的厌恶，适用于多种 NLP 任务，促进 AI 在偏见检测和消除中的社会价值。

🎯

❓

Biasly数据集旨在捕捉对女性的厌恶，适用于多种自然语言处理任务，包括分类和文本重写生成。

通用的'有害性'分类器无法有效区分不同社区生成的内容，特别是在评估厌恶方面存在局限性。

通过构建训练语料库并精调语言模型，研究发现特定词汇索引方法能更有效地评估厌恶。

研究希望促进AI在自然语言处理中的社会价值，帮助检测和消除偏见。

Biasly数据集由多领域专家和标注员合作构建，包含北美电影中的口语表达对女性的厌恶。

厌女症识别任务的研究有助于提高对社交媒体上有毒内容的检测和分类能力。

🏷️