机器之心 ·

从2019年到现在，是时候重新审视Tokenization了

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

2019年发布的GPT-2采用BPE算法进行tokenization，但效果有限。HuggingFace的研究表明，tokenization对模型的算术能力有显著影响，单位数tokenization在处理数字和复杂算术问题上表现优于其他方法，而右到左的tokenization也显示出优势。

🎯

❓

Tokenization是将文本分解为更小单元的过程，它对模型的算术能力有显著影响，尤其是在处理数字和复杂算术问题时。

单位数tokenization在处理数字和复杂算术问题上表现优于其他方法，尤其在输入数据长度变化时更为鲁棒。

右到左的tokenization方法从文本末尾开始处理，可以防止操作数的错位，从而提高算术运算的准确性。

Llama 3采用三位数tokenization的方法，将数字分为三位一组，从而为每个数字提供唯一的token。

HuggingFace的研究表明，tokenization对语言模型的算术性能有显著影响，单位数tokenization在数学任务中表现最佳。

在算术运算中，单位数tokenization的性能明显优于其他方法，尤其是在处理复杂问题时。

🏷️

Xbox 用户现在可以为特定游戏禁用快速恢复功能
微软发布了新的Xbox更新，允许玩家为特定游戏禁用快速恢复功能，以解决在某些多人游戏或需要持续互联网连接的游戏中可能出现的问题。更新还增加了自定义颜色、最...
现在，加利福尼亚州的警察可以对无人驾驶汽车开罚单
加利福尼亚州的新法规自7月1日起生效，允许执法部门对无人驾驶汽车开罚单。法规要求无人驾驶汽车在紧急情况下迅速撤离，并在30秒内响应急救呼叫。此外，法规还允...
代理现在可以创建Cloudflare账户、购买域名并部署应用
代理现在可以代表用户创建Cloudflare账户、购买域名并部署应用，整个过程无需人工干预。通过与Stripe合作的新协议，代理能够快速完成这些任务，简化...
PlayStation现在要求进行一次在线验证，以确认您拥有游戏
索尼澄清了关于PlayStation 5和4的新数字版权管理（DRM）系统的误解，表示用户只需进行一次在线验证，之后无需再检查，玩家可以正常访问和玩已购游...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...