量子位 ·

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

谷歌揭秘大模型计数能力不足的原因是嵌入维度不够大，词向量无法保持正交性。词汇量的增加是导致大模型计数能力下降的主要原因。作者认为这项研究划定了大模型计数能力的上下界，但仍有改进空间。

🎯

关键要点

谷歌研究发现大模型计数能力不足的原因是嵌入维度不够大，而非简单的tokenizer问题。
Transformer的计数能力与嵌入维度和词汇量密切相关，嵌入维度必须大于词汇量以保持正交性。
当嵌入维度不足时，词向量无法保持正交性，导致计数能力下降。
作者通过两个实验验证了词汇量的增加是导致大模型计数能力下降的主要原因。
第一个实验显示，模型的计数准确率在词汇量超过嵌入维度时显著下降。
第二个实验表明，Gemini 1.5模型在计数任务上的误差随着词汇量的增加而显著上升。
尽管研究划定了大模型计数能力的上下界，但仍有改进空间，未来需要进一步验证。

❓

延伸问答

为什么大模型的计数能力不足？

大模型的计数能力不足是因为嵌入维度不够大，无法保持词向量的正交性。

嵌入维度与词汇量之间有什么关系？

嵌入维度必须大于词汇量，以保持正交性，从而确保计数能力。

实验结果如何验证词汇量对计数能力的影响？

实验显示，随着词汇量的增加，模型的计数准确率显著下降，尤其当词汇量超过嵌入维度时。

Gemini 1.5模型在计数任务上的表现如何？

Gemini 1.5模型在计数任务上的误差随着词汇量的增加而显著上升。

如何通过注意力机制实现计数？

通过注意力机制，模型赋予被查询词较大权重，并利用位置编码提取出现频率的倒数。

未来的研究方向是什么？

未来需要进一步验证大模型计数能力的上下界，并探究增加Transformer层数的影响。

🏷️

标签

r 大模型嵌入维度计数能力词向量谷歌

➡️

继续阅读

移远通信端侧AI大模型解决方案迎来全面升级
(全球TMT 2026年07月20日讯)在WAIC 2026（世界人工智能大会）期间，移远通信宣布其端侧AI大 […]
AI 内存别只当概念看：它其实是状态管理问题
阮一峰周刊提到 AI 内存这个话题。比起把它看成模型能力，我更关心它在真实系统里的状态管理、隔离、回滚和观测问题。AI 应用想记住用户，先要能解释、能删除、能排查。
记一个gitea推送失败的问题
我的博客的推送一份是在github作为github
Apache HDFS 小文件相关问题全景分析（2022 — 2026）
Anthropic employees worked “literally around the clock” to keep Fable 5 from disappearing
After weeks of extending temporary access while bringing additional inference...
LG’s glossy OLED gaming monitor is rare to find under $400
If you’ve been thinking about upgrading your gaming monitor, LG’s 27-inch 27G...