本文介绍了一种自我正则化的软件实体识别(SER)模型训练方法,利用维基百科分类法建立实体词典和标注数据集,解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中,该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。
完成下面两步后,将自动完成登录并继续当前操作。