TurboQuant是谷歌推出的新算法库,旨在通过量化和压缩技术提高大型语言模型和向量搜索引擎的效率。它能将缓存内存消耗降低至3位,无需重新训练模型。采用PolarQuant和QJL两阶段压缩技术,确保无准确性损失。实验表明,TurboQuant在H100 GPU上性能提升8倍,内存占用减少5.4倍,适用于大规模环境。
Qdrant 1.18引入了TurboQuant,这是一种新的基于旋转的向量量化方法,提供8x、16x和32x的压缩率。与标量量化和二进制量化相比,TurboQuant在存储效率和召回率上表现更佳。建议用户在测试数据上尝试TurboQuant配置,以实现更高的召回率和更低的存储需求。该方法无需数据集训练,适用于各种嵌入模型。
Qdrant 1.18版本推出了TurboQuant量化方法,提供更高的压缩比和相似的召回率。新增内存监控功能,支持查看各组件的内存使用情况。用户可以在现有集合中添加和移除命名向量,简化模型迁移。同时,审计日志功能得到改进,增加了查询日志的API和请求追踪ID支持,提升了安全性和调试效率。
TurboQuant has recently been launched by Google as a novel algorithmic suite and library for applying advanced quantization and compression to large language models (LLMs) and vector search...
Google推出的TurboQuant算法将AI内存KV缓存压缩6倍,几乎无损失,提升速度与吞吐量,降低成本,重塑行业结构。这项技术使AI更便宜、更快,推动复杂应用的发展,同时可能增加内存需求,给内存厂商带来压力与机遇。
本研究提出了一种新在线算法TurboQuant,旨在解决向量量化中的均方误差和内积失真问题。该算法通过随机旋转输入向量和优化标量量化器,有效保持几何结构。实验结果表明,其在关键值缓存量化和最近邻搜索中优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。