小红花·文摘

本文研究了语言概率模型中单词子结构的影响，提出了多种语言模型和无监督中文分词方法。研究发现，不基于分词的字符级模型在复杂情况下更具鲁棒性。同时，开发了PKUSEG工具包用于多领域分词，并评估现有系统，提出新标准。研究表明，模型性能受数据集特征影响，MigBERT模型在中文NLP任务中表现优异。