💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍,且无损精度,导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换,显著降低内存需求并提升速度,可能会改变AI的内存使用方式。

🎯

关键要点

  • 谷歌推出TurboQuant算法,将AI推理中的KV缓存压缩6倍,且无损精度。

  • 美光和西部数据股价因谷歌新算法大跌,市场解读为内存需求减少。

  • TurboQuant通过极坐标量化和量化JL变换显著降低内存需求并提升速度。

  • KV缓存是AI推理的核心瓶颈,传统方法需额外存储量化常数。

  • TurboQuant的PolarQuant和QJL组合实现3-bit量化,无需额外内存。

  • 在主流长上下文基准测试中,TurboQuant表现优异,内存占用缩小至少6倍。

  • TurboQuant在英伟达H100 GPU上计算速度比未量化版本快8倍。

  • Cloudflare CEO称TurboQuant是谷歌的DeepSeek时刻,证明用更少资源也能训练顶尖模型。

  • TurboQuant尚未大规模部署,目前只解决推理阶段的内存问题。

➡️

继续阅读