Toucan: 基于标记的字符级语言建模
原文中文,约300字,阅读约需1分钟。发表于: 。通过学习将字符表示组合成标记的方式,我们提出了 Toucan,它是一种改进的字符级模型,使其更具 “标记感知” 能力。与先前的方法相比,我们的方法在字符生成方面显著加快速度,同时保持了语言建模性能。我们还探索了学习到的字符序列的动态标记化与流行的固定词汇解决方案(如字节对编码和 WordPiece)之间的差异,发现我们的方法导致更多较长的序列以单个项目进行标记。
Toucan是一种改进的字符级模型,通过学习将字符表示组合成标记的方式,提高了字符生成速度,同时保持了语言建模性能。与固定词汇解决方案相比,Toucan导致更多较长的序列以单个项目进行标记。