小红花·文摘

本研究提出了两项创新，旨在解决预训练语言模型在固定分词方案下的低效问题，特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习，显著降低了重新训练的需求并提升了性能，展现出广泛的潜在影响。