李文举 ·

文本tokenize方法总结

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文总结了文本分词方法，包括简单的空格分割、字符分割和子词分词器。子词分词器如BPE、字节级BPE、WordPiece和Unigram，能够有效缩小词表并学习有意义的表示，适用于多种语言文本。

🎯

关键要点

本文总结了文本分词方法，包括简单的空格分割、字符分割和子词分词器。
使用与训练时相同的tokenize方法才能保证预训练模型的正常表现。
空格分割存在标点符号和单词无法分割的问题，中文没有空格，导致词表较大。
字符分割虽然减小词表，但模型难以学习有意义的表示。
子词分词器假设大部分词不需要拆分，少数词需要进一步拆分。
第一个子词分词器是BPE，通过合并相邻字符来减小词表。
字节级BPE使用256个基础字符，GPT-2采用此策略。
WordPiece算法用于BERT，依据最大化语言概率合并字符。
Unigram算法先创建巨大的词表，然后逐步删除符号。
Sentence Piece用于非英文文本，通过抽象输入流来减少词表。

❓

延伸问答

什么是文本分词方法？

文本分词方法是将文本拆分成一个个token的技术，包括空格分割、字符分割和子词分词器等。

子词分词器的优势是什么？

子词分词器能够减小词表，同时学习到有意义的表示，适用于未见过的词。

BPE和WordPiece有什么区别？

BPE通过合并相邻字符的频率来减小词表，而WordPiece则是依据最大化语言概率进行合并。

为什么空格分割在中文中效果不佳？

中文没有空格，导致词表较大，且标点符号和单词无法有效分割。

什么是字节级BPE？

字节级BPE使用256个基础字符，适用于减少词表，GPT-2采用此策略。

Unigram算法是如何工作的？

Unigram算法先创建一个巨大的词表，然后逐步删除符号，依据语言概率损失最小进行选择。

🏷️

继续阅读

GStack+GBrain技能化：从结构上消除智能体重复错误的工程方法
本文介绍了“技能化”方法，通过将智能体的失败转化为永久性技能，并配备测试以防止错误重现，从而提升智能体的可靠性。作者提出了十步检查清单，强调结构化工作流程...
人工智能推出的产品实验：为何A/B测试失效以及如何通过Python中的差异中的差异方法解决
文章讨论了在企业SaaS中推出基于LLM的功能时，如何有效测量其因果效应。由于分阶段推出的特性，传统的A/B测试无法提供有效的因果推断。文章介绍了“差异中...
工程师如何把多个 Coding Agent 真正带起来：一套比“开更多聊天窗口”更像工程流程的方法
Vibe Kanban 是一种帮助软件工程师高效管理多个 AI 编码代理的工具，通过 Kanban 机制优化任务规划和执行，解决单线程工作流的瓶颈。它强调...
“中国AI拿下这一轮，我没意见”——Kimi K2.6引爆Hacker News，海外开发者怎么看中国开源AI大模型？
Kimi K2.6是中国开源AI的最新成果，专注于长时程编码和多模态能力，受到开发者的广泛认可。其在编码任务上达到SOTA水平，展现了中国开源AI的强大实...
PixVerse 成为联合国 2026 AI for Good 全球峰会AI合作伙伴
PixVerse（爱诗科技）成为联合国2026 AI for Good全球峰会电影节的独家AI合作伙伴，启动全球AI视频作品征集，截止日期为5月15日。电...
吃细糠
文章讨论了外卖食品的质量问题，作者对所点的菜品如小鸡炖蘑菇和锅包肉感到失望，认为其口感和味道不合格。作者回忆起美好的用餐体验，感慨现代人对美食的追求受到现...