小红花·文摘

本文研究了语言概率模型中单词子结构的影响，提出了多种语言模型和无监督中文分词方法。研究发现，不基于分词的字符级模型在复杂情况下更具鲁棒性。同时，开发了PKUSEG工具包用于多领域分词，并评估现有系统，提出新标准。研究表明，模型性能受数据集特征影响，MigBERT模型在中文NLP任务中表现优异。

BriefGPT - AI 论文速递 ·

Toucan是一种改进的字符级模型，通过学习将字符表示组合成标记的方式，提高了字符生成速度，同时保持了语言建模性能。与固定词汇解决方案相比，Toucan导致更多较长的序列以单个项目进行标记。

BriefGPT - AI 论文速递 ·