噪音鲁棒学习的软件实体识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种自我正则化的软件实体识别(SER)模型训练方法,利用维基百科分类法建立实体词典和标注数据集,解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中,该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。

🎯

关键要点

  • 提出了一种自我正则化的软件实体识别(SER)模型训练方法。

  • 利用维基百科分类法建立了一个包含79K个软件实体和12种详细类型的实体词典。

  • 构建了一个包含1.7M个句子的标注数据集,解决了语料库中的噪音和训练数据不足的问题。

  • 在维基百科和两个Stack Overflow基准测试中,该方法表现优于基准模型和现有方法。

  • 作者公开了模型、数据和代码,以供未来研究使用。

➡️

继续阅读