京东科技开发者 ·

一种融合指代消解序列标注方法在中文人名识别上的应用（上）

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

该文章介绍了一种融合指代消解的序列标注方法来改进人名识别的技术，并使用爬虫技术获取舆情公告文本数据。通过分词工具进行文本抽取和数据增强，使用BERT语言预处理模型和指代消解算法提高人名识别准确率。该算法可应用于机构名和地名等实体的识别。

🎯

关键要点

文章介绍了一种融合指代消解的序列标注方法来改进人名识别技术。
该方法依托人民日报数据及舆情公告数据，旨在提高人名识别的准确率。
人名识别面临语料残缺和人称指代不明等问题，影响识别准确度。
利用爬虫技术获取舆情公告文本数据，并通过分词工具进行文本抽取。
设置自定义词典以增强数据，清洗和分类文本数据以减少噪声干扰。
使用Jieba分词工具进行分词，并通过禁用词表和自定义词典改进识别效果。
引入BERT语言预处理模型以获取高质量动态词向量，提升上下文特征学习。
结合双向LSTM和条件随机场模型，动态表征序列关系，提高人名识别准确率。
该算法未来将拓展至机构名、地名等其他实体的识别，提升文本识别准确率。

❓

延伸问答

这篇文章提出了什么方法来改进人名识别？

文章提出了一种融合指代消解的序列标注方法来改进人名识别技术。

人名识别面临哪些主要问题？

人名识别面临语料残缺和人称指代不明等问题，影响识别准确度。

如何提高人名识别的准确率？

通过数据增强、指代消解算法和使用BERT模型等方法来提高人名识别的准确率。

文章中提到的文本数据处理步骤有哪些？

文本数据处理步骤包括数据清洗、分类、分词和设置自定义词典等。

BERT模型在该方法中起到什么作用？

BERT模型用于获取高质量动态词向量，提升上下文特征学习。

该算法未来的应用方向是什么？

该算法未来将拓展至机构名、地名等其他实体的识别，提升文本识别准确率。

🏷️

标签

BERT语言预处理模型人名识别序列标注方法爬虫技术融合指代消解

➡️

继续阅读

WAIC重磅成果｜仪电智算云在国家人工智能应用中试基地建设中展现全栈服务能力
A社调整Claude Team订阅成员限制起步从5人下调到2人以便更多小团队开通订阅
#人工智能 A 社宣布调整 Claude Team 团队订阅机制，从最小 5 人席位下调到 2 人席位，即现在只需要 2 个成员就可以开通团队账号。此次调...
UKB五万人数据：过滤咖啡与延缓生物衰老有关，而速溶咖啡则恰恰相反
喝掉三亿杯速溶咖啡的人，你们的生物年龄正在偷偷加速，这事儿你们敢信吗？最新UK Biobank追踪近五万人的数据显示，滤泡咖啡和速溶咖啡在生物衰老这件事...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
AI分析表明：胸背强壮的人患心脏病的风险较低
健身房练胸练背，居然比吃降压药更保命？你这是把心脏当博物馆藏品，只围观不保养吧？一项覆盖1722名胸痛患者、利用AI分析胸部CT的追踪研究显示，胸腔和背...
【Rust日报】2026-07-22 Wasmtime 47 默认启用 Wasm GC 与异常支持
Wasmtime 47 默认启用 Wasm GC 与异常支持：高阶语言进军 WebAssembly 又少了一层自带运行时包袱 Bytecode Allia...