网页中的超文本实体抽取

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了新的已注释数据集HealthE和实体分类模型EP S-BERT。该数据集对公共卫生相关文本的实体标签进行了更精细的标记,而EP S-BERT模型在实体类别分类中利用了文本上下文模式。该模型的F1评分比基线模型提高了4个百分点,并且与现有的医疗NER工具相比,F1评分提高了34个百分点。所有代码和数据都在Github上公开。

🎯

关键要点

  • 发布了新的已注释数据集HealthE,针对公共卫生相关文本的实体标签进行了更精细的标记。

  • 介绍了新的实体分类模型EP S-BERT,利用文本上下文模式进行实体类别分类。

  • EP S-BERT模型的F1评分比基线模型提高了4个百分点。

  • 与现有医疗NER工具相比,F1评分提高了34个百分点。

  • 所有代码和数据均在Github上公开。

➡️

继续阅读