大语言模型基础:分词的奇妙世界
原文英文,约1500词,阅读约需6分钟。发表于: 。Welcome to part two of LLM Basics, where we continue our journey into understanding Large Language Models (LLMs). If you haven’t already, check out Part One: The Transformer Model. Today, we're...
本文介绍了大语言模型中的分词技术,分词是将文本拆分为更小单位(tokens)以便机器处理。主要有三种分词方法:字符级、词级和子词级。子词分词在字符和词之间取得平衡,常用算法包括BPE和WordPiece。在处理不同长度序列时需注意填充和特殊标记,同时需考虑词汇大小和未知标记的处理。