网页中的超文本实体抽取
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了新的已注释数据集HealthE和实体分类模型EP S-BERT。该数据集对公共卫生相关文本的实体标签进行了更精细的标记,而EP S-BERT模型在实体类别分类中利用了文本上下文模式。该模型的F1评分比基线模型提高了4个百分点,并且与现有的医疗NER工具相比,F1评分提高了34个百分点。所有代码和数据都在Github上公开。
🎯
关键要点
-
发布了新的已注释数据集HealthE,针对公共卫生相关文本的实体标签进行了更精细的标记。
-
介绍了新的实体分类模型EP S-BERT,利用文本上下文模式进行实体类别分类。
-
EP S-BERT模型的F1评分比基线模型提高了4个百分点。
-
与现有医疗NER工具相比,F1评分提高了34个百分点。
-
所有代码和数据均在Github上公开。
➡️