使用集成数据清理方法开发高效语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究使用自然语言处理技术解决获取发展中国家公司财务数据的问题,构建专门针对发展中国家金融文本数据的数据集,使用T5模型和SpaCy进行文本处理,分别达到92.44%和84.72%的准确率。
🎯
关键要点
-
本研究使用自然语言处理技术解决发展中国家公司财务数据获取问题。
-
构建了专门针对发展中国家金融文本数据的数据集。
-
采用基于 Transformer 的 T5 模型进行文本处理,达到92.44%的准确率。
-
进行命名实体识别和关系提取,精确度为68.25%,召回率为54.20%。
-
使用SpaCy进行序列处理,最终实现84.72%的准确率。
-
SpaCy的命名实体识别精确度为6.06%,召回率为5.57%。
➡️