打破沉默:检测和减少印度在线空间中的性别虐待(印地语、泰米尔语和印度英语)
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
在线性别基础骚扰是限制女性和边缘性别在数字空间中自由表达和参与的普遍问题。研究团队开发了一种结合CNN和BiLSTM网络的方法,用于识别带有性别偏见的滥用。该方法在英语数据集上表现出强大的性能。该方法在比赛中排名第一,有望在应对Indic语言互联网用户的网络骚扰方面发挥重要作用。
🎯
关键要点
- 在线性别基础骚扰限制女性和边缘性别在数字空间中的自由表达和参与。
- 检测性别偏见的滥用内容可以帮助平台遏制这一威胁。
- 研究团队参加了 ICON2023 的性别虐待检测任务,使用英语、印地语和泰米尔语的数据集。
- 团队开发了结合 CNN 和 BiLSTM 网络的集成方法,有效建模文本数据中的语义和顺序模式。
- CNN 捕捉暴力语言的局部特征,BiLSTM 分析单词和短语之间的依赖关系。
- 为每种语言数据集训练了多种变体,使用 FastText 和 GloVe 词嵌入,涵盖了7600多个众包注释。
- 验证分数显示出强大的性能,英语的验证分数为 0.84。
- 实验表明通过自定义嵌入和模型超参数可以提高检测能力。
- 该架构在比赛中排名第一,证明其处理现实世界嘈杂文本的能力。
- 这种技术在应对 Indic 语言互联网用户的网络骚扰方面有广阔前景。
➡️