MachineLearningMastery.com ·

语言模型中的分词器

💡 原文英文，约3200词，阅读约需12分钟。

📝

内容提要

本文探讨了现代语言模型中的分词算法，包括朴素分词、词干提取、字节对编码（BPE）、WordPiece和SentencePiece。分词是自然语言处理中的重要步骤，旨在将原始文本转换为可处理的标记。BPE通过合并频繁的相邻字符对构建词汇，WordPiece通过最大化训练数据的可能性优化分词，而SentencePiece适用于多语言场景，无需预分词。理解这些算法对有效处理文本数据至关重要。

🎯

关键要点

分词是自然语言处理中的重要步骤，将原始文本转换为可处理的标记。
朴素分词是最简单的分词方法，通过空格将文本分割为标记，但处理标点和特殊字符能力差。
词干提取和词形还原是减少词汇大小的技术，前者可能产生无效词，后者通常产生有效词。
字节对编码（BPE）通过合并频繁的相邻字符对构建词汇，广泛用于现代语言模型。
WordPiece通过最大化训练数据的可能性来优化分词，常用于BERT模型。
SentencePiece是一种语言中立的分词算法，适用于多语言场景，无需预分词。
理解这些分词算法对于有效处理文本数据至关重要。

❓

延伸问答

什么是分词，为什么在自然语言处理中重要？

分词是将原始文本转换为可处理的标记的过程，是自然语言处理中的重要步骤，帮助模型理解和处理文本数据。

朴素分词的主要缺点是什么？

朴素分词主要缺点是处理标点和特殊字符能力差，可能导致相同词的不同表示，影响模型的理解。

字节对编码（BPE）是如何工作的？

BPE通过合并训练数据中最频繁的相邻字符对来构建词汇，直到达到预定的词汇大小。

WordPiece与BPE有什么主要区别？

WordPiece使用最大化训练数据可能性的公式来优化分词，而BPE则是通过合并最频繁的字符对来构建词汇。

SentencePiece的优势是什么？

SentencePiece是一种语言中立的分词算法，适用于多语言场景，无需预分词，能够处理不同语言的文本。

如何使用Hugging Face库训练自己的BPE分词器？

可以使用Hugging Face的Tokenizers库，通过加载数据集并使用BpeTrainer训练分词器，最后保存为JSON文件。

🏷️

继续阅读

提高文本处理和实体识别效率的三种SpaCy技巧
本文探讨了优化spaCy以提高自然语言处理效率的三种技巧：选择性加载和禁用组件以减少计算开销，使用nlp.pipe进行高吞吐量批处理以利用多核并行处理，以...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
当你的手机在机场被扣押时会发生什么
明尼苏达州的劳动组织者Janette Zahia Corcelius在返回美国时，她的手机被海关扣押并未归还。她提起诉讼，认为海关的行为违反了宪法第四修正...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
纽约州立法者通过了一项为期一年的新数据中心禁令
纽约州立法机构通过了一项为期一年的数据中心禁令，以评估其对环境和能源价格的影响。法案要求公司在获得项目批准前，至少提前三个月举行公众听证会。尽管大多数民众...