小红花·文摘

本文介绍了一种自我正则化的软件实体识别（SER）模型训练方法，利用维基百科分类法建立实体词典和标注数据集，解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中，该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。