谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。
本研究提出了ParetoQ框架,旨在解决量化模型大小与准确性之间的最佳比特宽度问题。研究发现2比特与3比特之间存在显著的学习转变,优化后的ParetoQ在准确性上优于以往方法,表明2比特量化在内存减少和加速方面具有潜力。
本研究提出了一种个性化的KV缓存内存减少方法,旨在解决长上下文推理任务中的内存需求问题。通过量化不同层级缓存数据对推理准确性的影响,优化缓存分配,实验结果表明该方法能将内存消耗平均减少61.6%,同时提升计算效率和吞吐量。
ALISA是一种优化大型语言模型KV缓存的算法,通过SqueezeAttention等方法实现了30%至70%的内存减少和吞吐量提升。新方法GemFilter和SimLayerKV有效降低内存需求,同时保持模型准确性。ShadowKV系统在不牺牲精度的情况下显著提高了推理速度和性能。
Qdrant 1.2.0引入产品量化技术,通过将浮点数转换为整数,显著降低内存使用。该技术利用K-means算法将向量分割为子向量,生成256个质心,适合低内存环境和高维数据。用户可参考文档配置此功能,实现高达64倍的内存减少。
完成下面两步后,将自动完成登录并继续当前操作。