💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍,且无损精度,导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换,显著降低内存需求并提升速度,可能会改变AI的内存使用方式。
🎯
关键要点
-
谷歌推出TurboQuant算法,将AI推理中的KV缓存压缩6倍,且无损精度。
-
美光和西部数据股价因谷歌新算法大跌,市场解读为内存需求减少。
-
TurboQuant通过极坐标量化和量化JL变换显著降低内存需求并提升速度。
-
KV缓存是AI推理的核心瓶颈,传统方法需额外存储量化常数。
-
TurboQuant的PolarQuant和QJL组合实现3-bit量化,无需额外内存。
-
在主流长上下文基准测试中,TurboQuant表现优异,内存占用缩小至少6倍。
-
TurboQuant在英伟达H100 GPU上计算速度比未量化版本快8倍。
-
Cloudflare CEO称TurboQuant是谷歌的DeepSeek时刻,证明用更少资源也能训练顶尖模型。
-
TurboQuant尚未大规模部署,目前只解决推理阶段的内存问题。
➡️