BriefGPT - AI 论文速递 ·

噪音鲁棒学习的软件实体识别

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

本文介绍了一种自我正则化的软件实体识别（SER）模型训练方法，利用维基百科分类法建立实体词典和标注数据集，解决了语料库中噪音和训练数据不足的问题。在维基百科和Stack Overflow基准测试中，该方法展现了优于基准模型和现有方法的性能。作者公开了模型、数据和代码供未来研究使用。

🎯

关键要点

提出了一种自我正则化的软件实体识别（SER）模型训练方法。
利用维基百科分类法建立了一个包含79K个软件实体和12种详细类型的实体词典。
构建了一个包含1.7M个句子的标注数据集，解决了语料库中的噪音和训练数据不足的问题。
在维基百科和两个Stack Overflow基准测试中，该方法表现优于基准模型和现有方法。
作者公开了模型、数据和代码，以供未来研究使用。

🏷️

标签

性能标注数据集维基百科自我正则化软件实体识别

➡️

继续阅读