NoiseBench: 命名实体识别中真实标签噪声对性能的基准测试

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文研究了标签噪声对BERT分类性能的影响,提出通过集成和噪声清洗方法提升模型的稳健性。构建了NoisywikiHow基准数据集,以模拟真实标签噪声,支持对噪声标签学习方法的评估。同时,探讨了命名实体识别(NER)模型的噪声鲁棒性,提出新的训练方案和自我训练方法,显著提升了模型性能。

🎯

关键要点

  • 研究标签噪声对BERT分类性能的影响,发现现实标签噪声严重降低分类性能。
  • 构建NoisywikiHow基准数据集,模拟真实标签噪声,支持噪声标签学习方法的评估。
  • 提出集成方法和噪声清洗方法以提高模型的稳健性。
  • 研究命名实体识别(NER)模型的噪声鲁棒性,提出新的训练方案和自我训练方法。
  • 通过置信度校准和自我训练框架显著提升模型性能,适用于多种语言和标注场景。

延伸问答

标签噪声对BERT分类性能的影响是什么?

标签噪声严重降低了BERT的分类性能。

NoisywikiHow基准数据集的目的是什么?

NoisywikiHow基准数据集用于模拟真实标签噪声,支持噪声标签学习方法的评估。

如何提高模型的稳健性?

可以通过集成方法和噪声清洗方法来提高模型的稳健性。

本文提出了哪些新的训练方案?

提出了基于置信度校准和自我训练的方法,以提升命名实体识别模型的性能。

噪声鲁棒性在命名实体识别中有什么重要性?

噪声鲁棒性可以显著提升命名实体识别模型在实际应用中的性能。

该研究的实验结果如何?

实验表明,提出的方法在多种语言和标注场景下均表现出显著的有效性。

➡️

继续阅读