一种融合指代消解序列标注方法在中文人名识别上的应用(上)

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

该文章介绍了一种融合指代消解的序列标注方法来改进人名识别的技术,并使用爬虫技术获取舆情公告文本数据。通过分词工具进行文本抽取和数据增强,使用BERT语言预处理模型和指代消解算法提高人名识别准确率。该算法可应用于机构名和地名等实体的识别。

🎯

关键要点

  • 文章介绍了一种融合指代消解的序列标注方法来改进人名识别技术。
  • 该方法依托人民日报数据及舆情公告数据,旨在提高人名识别的准确率。
  • 人名识别面临语料残缺和人称指代不明等问题,影响识别准确度。
  • 利用爬虫技术获取舆情公告文本数据,并通过分词工具进行文本抽取。
  • 设置自定义词典以增强数据,清洗和分类文本数据以减少噪声干扰。
  • 使用Jieba分词工具进行分词,并通过禁用词表和自定义词典改进识别效果。
  • 引入BERT语言预处理模型以获取高质量动态词向量,提升上下文特征学习。
  • 结合双向LSTM和条件随机场模型,动态表征序列关系,提高人名识别准确率。
  • 该算法未来将拓展至机构名、地名等其他实体的识别,提升文本识别准确率。
➡️

继续阅读