量子位 ·

谷歌新论文把内存股价干崩了！KV cache压缩6倍，网友：硅谷成真了 profile-avatar

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍，且无损精度，导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换，显著降低内存需求并提升速度，可能会改变AI的内存使用方式。

🎯

关键要点

谷歌推出TurboQuant算法，将AI推理中的KV缓存压缩6倍，且无损精度。
美光和西部数据股价因谷歌新算法大跌，市场解读为内存需求减少。
TurboQuant通过极坐标量化和量化JL变换显著降低内存需求并提升速度。
KV缓存是AI推理的核心瓶颈，传统方法需额外存储量化常数。
TurboQuant的PolarQuant和QJL组合实现3-bit量化，无需额外内存。
在主流长上下文基准测试中，TurboQuant表现优异，内存占用缩小至少6倍。
TurboQuant在英伟达H100 GPU上计算速度比未量化版本快8倍。
Cloudflare CEO称TurboQuant是谷歌的DeepSeek时刻，证明用更少资源也能训练顶尖模型。
TurboQuant尚未大规模部署，目前只解决推理阶段的内存问题。

❓

延伸问答

TurboQuant算法的主要功能是什么？

TurboQuant算法可以将AI推理中的KV缓存压缩6倍，且无损精度。

谷歌的新算法对内存股价有什么影响？

由于市场解读为内存需求减少，美光和西部数据的股价大跌。

TurboQuant是如何实现内存压缩的？

TurboQuant通过极坐标量化和量化JL变换显著降低内存需求。

TurboQuant在性能上有什么优势？

在英伟达H100 GPU上，TurboQuant的计算速度比未量化版本快8倍。

TurboQuant的应用场景有哪些？

TurboQuant可以用于Gemini等大模型，并提升语义搜索的效率。

TurboQuant是否已经大规模部署？

目前TurboQuant还只是实验室成果，尚未大规模部署。

🏷️

继续阅读

有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
谷歌允许社交媒体明星自定义他们的搜索结果页面
谷歌允许美国的大型创作者和出版商申请专属搜索资料，展示他们的在线内容，如视频和文章。此功能仅限于拥有至少10万YouTube订阅者、10万Instagra...
这次谷歌相册的更新拯救了你的数字相框
谷歌的Ambient API更新使Aura数字相框用户可以自动更新幻灯片库，用户可直接从谷歌相册添加照片或同步整个相册。现有用户需重新连接相册以保持同步，...