打破沉默:检测和减少印度在线空间中的性别虐待(印地语、泰米尔语和印度英语)

💡 原文中文,约1700字,阅读约需5分钟。
📝

内容提要

本文探讨了性别暴力与社交媒体的关系,提出了针对印地语、泰米尔语和印度英语的性别虐待数据集。研究表明,IndicBERT在马拉雅拉姆语和泰米尔语中的表现优异,旨在通过打击恶意言论促进在线空间的包容性。

🎯

关键要点

  • 在线性别暴力与社交媒体的使用同时增长,尤其在非英语国家更为严重。
  • 缺乏特定语言和语境的数据来构建自动检测性别虐待的工具。
  • 本文介绍了印地语、泰米尔语和印度英语的性别虐待数据集,旨在推动AI系统的发展。
  • IndicBERT模型在马拉雅拉姆语和泰米尔语中的分类性能优异,F1-score分别为0.86和0.77。
  • 研究还探讨了孟加拉语、阿萨姆语和古吉拉特语的恶意言论检测,发现单语句BERT模型在孟加拉语中表现最佳。
  • 目标是通过打击恶意言论促进在线空间的包容性。

延伸问答

印度在线空间中的性别虐待问题有多严重?

在线性别暴力在印度尤其严重,尤其是在非英语国家,社交媒体的使用与性别虐待的增长密切相关。

本文提到的性别虐待数据集包含哪些语言?

数据集包括印地语、泰米尔语和印度英语。

IndicBERT模型在马拉雅拉姆语和泰米尔语中的表现如何?

IndicBERT模型在马拉雅拉姆语和泰米尔语中的F1-score分别为0.86和0.77,表现优异。

缺乏特定语言数据对性别虐待检测有什么影响?

缺乏特定语言和语境的数据使得构建自动检测性别虐待的工具变得困难。

研究中提到的其他语言的恶意言论检测结果如何?

研究发现单语句BERT模型在孟加拉语中表现最佳,但阿萨姆语和古吉拉特语的性能仍有改进空间。

本文的主要目标是什么?

本文的目标是通过打击恶意言论促进在线空间的包容性。

➡️

继续阅读