AustroTox:用于基于目标的奥地利德语冒犯性语言检测的数据集

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

本文介绍了韩国冒犯性语言数据集(KOLD),包含40,429个注释评论,适用于韩文BERT和RoBERTa模型的训练。研究表明,提供上下文信息显著提升了模型在冒犯性检测和目标分类任务中的性能。

🎯

关键要点

  • 韩国冒犯性语言数据集(KOLD)包含40,429个分层注释的评论。
  • 这些注释评论用于韩文BERT和RoBERTa模型的训练,效果显著。
  • 提供上下文信息显著提高了模型在冒犯性检测、目标分类和目标组分类任务中的性能。
  • 在冒犯性检测中性能提升0.3,在目标分类中提升1.5,在目标组分类中提升13.1。

延伸问答

韩国冒犯性语言数据集(KOLD)包含多少个评论?

KOLD包含40,429个分层注释的评论。

KOLD数据集用于哪些模型的训练?

KOLD数据集用于韩文BERT和RoBERTa模型的训练。

提供上下文信息对模型性能的影响如何?

提供上下文信息显著提高了模型在冒犯性检测、目标分类和目标组分类任务中的性能。

在冒犯性检测中,模型性能提升了多少?

在冒犯性检测中,模型性能提升了0.3。

KOLD数据集的注释方式是什么?

KOLD数据集包含分层注释的评论。

KOLD数据集在目标组分类中的性能提升是多少?

在目标组分类中,性能提升了13.1。

➡️

继续阅读