本文研究了语言概率模型中单词子结构的影响,提出了多种语言模型和无监督中文分词方法。研究发现,不基于分词的字符级模型在复杂情况下更具鲁棒性。同时,开发了PKUSEG工具包用于多领域分词,并评估现有系统,提出新标准。研究表明,模型性能受数据集特征影响,MigBERT模型在中文NLP任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。