DEV Community ·

大语言模型基础：分词的奇妙世界

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

本文介绍了大语言模型中的分词技术，分词是将文本拆分为更小单位（tokens）以便机器处理。主要有三种分词方法：字符级、词级和子词级。子词分词在字符和词之间取得平衡，常用算法包括BPE和WordPiece。在处理不同长度序列时需注意填充和特殊标记，同时需考虑词汇大小和未知标记的处理。

🎯

关键要点

分词是将文本拆分为更小单位（tokens），以便机器处理。
主要有三种分词方法：字符级、词级和子词级。
字符级分词将每个字符作为一个token，优点是词汇量小，但序列较长且语义信息丢失。
词级分词在单词边界处拆分文本，保留了单词的语义，但词汇量大且处理复合词和拼写错误困难。
子词分词在字符级和词级之间取得平衡，常用算法包括BPE和WordPiece。
BPE通过迭代合并最频繁的字符对来构建词汇，适用于形态丰富的语言。
WordPiece根据合并的频率来决定是否合并token，常用于BERT模型。
处理不同长度序列时需要注意填充和特殊标记，如[PAD]、[CLS]、[SEP]等。
词汇大小影响模型性能和计算效率，过小或过大都会导致问题。
需要有处理未知token的策略，以避免模型在遇到未知token时出现问题。
提供了一个简单的BPE分词器的实现示例，展示了如何训练BPE模型。

❓

延伸问答

什么是分词，它在大语言模型中有什么作用？

分词是将文本拆分为更小单位（tokens），以便机器处理，是大语言模型处理语言的基础。

分词的主要方法有哪些？

主要有三种分词方法：字符级分词、词级分词和子词级分词。

子词分词的优势是什么？

子词分词在字符级和词级之间取得平衡，能够有效处理复合词和拼写错误，常用算法包括BPE和WordPiece。

BPE和WordPiece的区别是什么？

BPE通过迭代合并最频繁的字符对来构建词汇，而WordPiece根据合并的频率决定是否合并token。

在处理不同长度序列时需要注意什么？

需要注意填充和特殊标记的使用，如[PAD]、[CLS]、[SEP]等，以确保模型能够正确处理不同长度的输入。

如何处理未知token？

需要有处理未知token的策略，现代子词分词器通常会用[UNK]标记来替代未知token。

🏷️

继续阅读

大语言模型可解释性入门
文章讨论了大语言模型（LLM）的可解释性，强调动态评估的重要性。尽管LLM在AI领域取得了突破，其内部运作仍不透明。研究者提出了基于SMILE的框架，通过...
分析：AI 助手在回答流媒体可用性查询方面表现不一致
一项分析显示，流媒体影片可用性数据的准确率，ChatGPT为43.76%，Claude为50.21%，而Reelgood高达96.89%。大语言模型在处理...
小车车里的大世界：车模收藏入坑指南
作者分享了与汽车模型的缘分，从小学时购买第一辆保时捷卡宴模型开始，逐渐深入了解与收藏车模。文章介绍了1:18、1:43和1:64等不同比例车模的特点，强调...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
把文章发布到掘金，做成一个可复用的 juejin-skill
juejin-skill是一款自动化工具，旨在简化在掘金平台上发布文章的流程。它通过命令行界面实现登录、分类查询、标签推荐和图片上传等功能，支持将本地Ma...