量子位 ·

谷歌新论文把内存股价干崩了！KV cache压缩6倍，网友：硅谷成真了 profile-avatar

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍，且无损精度，导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换，显著降低内存需求并提升速度，可能会改变AI的内存使用方式。

🎯

关键要点

谷歌推出TurboQuant算法，将AI推理中的KV缓存压缩6倍，且无损精度。
美光和西部数据股价因谷歌新算法大跌，市场解读为内存需求减少。
TurboQuant通过极坐标量化和量化JL变换显著降低内存需求并提升速度。
KV缓存是AI推理的核心瓶颈，传统方法需额外存储量化常数。
TurboQuant的PolarQuant和QJL组合实现3-bit量化，无需额外内存。
在主流长上下文基准测试中，TurboQuant表现优异，内存占用缩小至少6倍。
TurboQuant在英伟达H100 GPU上计算速度比未量化版本快8倍。
Cloudflare CEO称TurboQuant是谷歌的DeepSeek时刻，证明用更少资源也能训练顶尖模型。
TurboQuant尚未大规模部署，目前只解决推理阶段的内存问题。

🏷️

继续阅读

Apifox发布安全公告承认遭到攻击开发者/企业应当全面排查并重置敏感凭证
国内API协作平台Apifox承认遭到供应链攻击，开发者需全面排查并重置敏感凭证。尽管已发布修复版本，但未及时发布安全公告，可能导致用户信息被窃取。蓝点网...
网络论坛Reddit开始要求部分账户进行身份认证以此打击AI机器人发帖和回帖
Reddit将加强对AI机器人账号的监管，检测到异常行为的账号需进行真人认证。大多数正常用户不受影响，只有可疑账号需提交身份证件。平台每天删除超过10万个...
GitHub Copilot 政策变了：默认用你的数据训练 AI，但可关闭
GitHub 更新了 Copilot 的数据使用政策，自 4 月 24 日起，Copilot Free、Pro 和 Pro+ 用户的交互数据将用于训练 A...
它石智航用“吉尼斯纪录”交卷真干活的具身大脑，丁文超：从来没有Plan B
石智航通过A1机器人成功完成亚毫米级线束装配任务，创下吉尼斯纪录，展示了具身智能的强大能力。公司专注于技术研发，采用以人为中心的数据采集方法，推动具身智能...
苹果通过蒸馏谷歌Gemini模型实现iOS端侧计算无需联网且高效响应
苹果通过蒸馏谷歌Gemini模型，实现iOS端侧计算，以满足隐私与安全需求。公司计划在iOS 27中推出更智能的Siri，具备多种AI聊天功能，并可定制小...
报告：欧洲视听市场规模达 1420 亿欧元
根据欧洲视听观察站发布的《2026年关键趋势报告》，2024年欧洲视听行业收入预计达到1420亿欧元，主要来源于流媒体和付费电视。电影制作量创历史新高，达...

谷歌新论文把内存股价干崩了！KV cache压缩6倍，网友：硅谷成真了 profile-avatar

内容提要

关键要点

标签

继续阅读