标记与块
原文英文,约300词,阅读约需1分钟。发表于: 。Tokens vs Chunks When reading articles or documentations, you'll see that sometimes, "tokens" and "chunks" are treated as synonyms, but usually they represent different granularity levels....
本文介绍了自然语言处理中的“tokens”和“chunks”概念。其中,“tokens”是NLP模型处理的最小数据单元,可以是句子、单词或字符;而“chunks”是一组“tokens”,可以是句子、单词的组合或名词短语等。它们通常具有不同的粒度级别,但有时被视为相同概念。