本文提出了一种改进自然语言处理(NLP)数据集的方法,以提升恶意语言检测分类器的性能。通过分析注释者的观点和不一致性,研究了不同模型在处理争议性任务中的有效性。所提模型能够预测标注员的意见分歧,并通过人口统计信息优化预测过程。此外,创建了一个包含150,000个标签的中文不确定性感知语义文本相似度数据集,以研究人类观点的集体性。
完成下面两步后,将自动完成登录并继续当前操作。