本研究提出了一种基于语义的新型分词器,使用词干增强子词形成,最小化未编码的单词数量,比SentencePiece分词器更高效。在BERT模型上实验表明,此方法可将单词数量提高一倍以上,显著提高NLP模型的收敛速度和单词及句子嵌入的质量。成绩排名Glue任务之前,比同等规模的模型优越50倍以上。
完成下面两步后,将自动完成登录并继续当前操作。