利用预训练的句子变换器在印度语言中进行冒犯性语言检测
原文中文,约300字,阅读约需1分钟。发表于: 。我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过 HASOC 2023 数据集对预训练的 BERT 和 SBERT 模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句 BERT 模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。
该研究旨在通过对孟加拉语、阿萨姆语和古吉拉特语中的恶意言论进行检测,来促进包容性的在线空间。研究使用预训练的BERT和SBERT模型进行微调,并发现单语句BERT模型在孟加拉语方面表现最佳,但阿萨姆语和古吉拉特语的性能仍有改进的机会。