LAST: 语言模型感知的语音分词

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于语义的新型分词器,使用词干增强子词形成,最小化未编码的单词数量,比SentencePiece分词器更高效。在BERT模型上实验表明,此方法可将单词数量提高一倍以上,显著提高NLP模型的收敛速度和单词及句子嵌入的质量。成绩排名Glue任务之前,比同等规模的模型优越50倍以上。

🎯

关键要点

  • 本研究提出了一种基于语义的新型分词器。
  • 使用词干增强子词形成,最小化未编码的单词数量。
  • 该分词器比SentencePiece分词器更高效。
  • 在BERT模型上实验表明,此方法可将单词数量提高一倍以上。
  • 显著提高NLP模型的收敛速度和单词及句子嵌入的质量。
  • 成绩排名Glue任务之前,比同等规模的模型优越50倍以上。
➡️

继续阅读