本文介绍了一个开源数据集存储库,旨在推动阿萨姆语的自然语言处理和机器翻译。该存储库提供用于情感分析和命名实体识别的预训练和微调语料库,促进阿萨姆语的数字化研究。
该研究旨在通过对孟加拉语、阿萨姆语和古吉拉特语中的恶意言论进行检测,来促进包容性的在线空间。研究使用预训练的BERT和SBERT模型进行微调,并发现单语句BERT模型在孟加拉语方面表现最佳,但阿萨姆语和古吉拉特语的性能仍有改进的机会。
完成下面两步后,将自动完成登录并继续当前操作。