噪音鲁棒学习的软件实体识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种自我正则化的软件实体识别(SER)模型训练方法,利用维基百科分类法建立实体词典和标注数据集,解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中,该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。
🎯
关键要点
-
提出了一种自我正则化的软件实体识别(SER)模型训练方法。
-
利用维基百科分类法建立了一个包含79K个软件实体和12种详细类型的实体词典。
-
构建了一个包含1.7M个句子的标注数据集,解决了语料库中的噪音和训练数据不足的问题。
-
在维基百科和两个Stack Overflow基准测试中,该方法表现优于基准模型和现有方法。
-
作者公开了模型、数据和代码,以供未来研究使用。
➡️