Transformer中的token - 蝈蝈俊
原文中文,约800字,阅读约需2分钟。
📝
内容提要
ChatGPT和视觉Transformer都使用token作为最小单位,ChatGPT的token大概为3/4的一个单词,而视觉Transformer把图片拆分成一个个patch,每个patch看作是一个token,以减少计算量。
🎯
关键要点
-
tokenization(分词)是将长文本分解为以字词为单位的数据结构。
-
在中文中,句子“我很开心”被分解为三个tokens:‘我’,‘很’,‘开心’。
-
不同的分词策略会导致不同的token划分,ChatGPT的token大约为3/4个单词。
-
ChatGPT的例子中,字符串‘ChatGPT is great!’被编码为六个tokens。
-
视觉Transformer将图片切分为16x16的patch,每个patch作为一个token,以减少计算量。
-
ViT通过切分图片来降低token数量,从而避免计算量过大。
-
token是具有独立语义的最小单位,每个token代表一个独立的单元,具有一定的语义含义。
🏷️