人类打字习惯与令牌计数
💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
文章讨论了文本分词器如何根据常见模式拆分文本,并影响计费。人类的打字习惯(如拼写错误、简写和填充词)会改变令牌数量,但意图保持不变。不同的拼写和输入习惯导致不同的令牌计数,从而影响成本。人类优化输入速度,而分词器优化常见文本,二者存在不一致。
🎯
关键要点
- 人类的打字习惯(如拼写错误、简写和填充词)会改变令牌数量,但意图保持不变。
- 不同的拼写和输入习惯导致不同的令牌计数,从而影响成本。
- 分词器根据常见模式拆分文本,而人类则优化输入速度,二者存在不一致。
- 常见拼写会压缩令牌,而较少见的拼写会导致令牌分裂。
- 人类的聊天中包含许多低信号的填充词,这些词在任务中很少有帮助,但会增加令牌数量。
- 标准字典词汇通常为1个令牌,更明确且更接近模型训练时看到的文本。
- 分词器根据模式计费,而人类则根据习惯打字,这种差异可能会导致不便。
❓
延伸问答
人类的打字习惯如何影响令牌计数?
人类的打字习惯,如拼写错误、简写和填充词,会改变令牌数量,但意图保持不变。
分词器是如何根据文本模式拆分文本的?
分词器根据常见模式拆分文本,这种方式可能与人类的打字习惯不一致。
不同拼写对令牌计数有什么影响?
常见拼写会压缩令牌,而较少见的拼写会导致令牌分裂,从而影响成本。
人类在打字时有哪些低信号的填充词?
人类聊天中常见的低信号填充词包括“基本上”、“其实”、“可能”等,这些词在任务中很少有帮助,但会增加令牌数量。
为什么人类的打字习惯与分词器的计费方式存在不一致?
人类优化输入速度,而分词器优化常见文本,导致二者在令牌计数上存在差异。
标准字典词汇的令牌计数通常是多少?
标准字典词汇通常为1个令牌,且更明确、更接近模型训练时看到的文本。
➡️