小红花·文摘

谷歌推出的新架构Mixture-of-Recursions（MoR）实现了推理速度提升2倍，内存减少50%。该架构通过统一参数共享和自适应计算，降低了计算和内存成本，同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer，展现出更高的计算效率和可扩展性。

量子位 ·

本研究提出了ParetoQ框架，旨在解决量化模型大小与准确性之间的最佳比特宽度问题。研究发现2比特与3比特之间存在显著的学习转变，优化后的ParetoQ在准确性上优于以往方法，表明2比特量化在内存减少和加速方面具有潜力。

BriefGPT - AI 论文速递 ·

本研究提出了一种个性化的KV缓存内存减少方法，旨在解决长上下文推理任务中的内存需求问题。通过量化不同层级缓存数据对推理准确性的影响，优化缓存分配，实验结果表明该方法能将内存消耗平均减少61.6%，同时提升计算效率和吞吐量。

BriefGPT - AI 论文速递 ·

ALISA是一种优化大型语言模型KV缓存的算法，通过SqueezeAttention等方法实现了30%至70%的内存减少和吞吐量提升。新方法GemFilter和SimLayerKV有效降低内存需求，同时保持模型准确性。ShadowKV系统在不牺牲精度的情况下显著提高了推理速度和性能。

BriefGPT - AI 论文速递 ·

Qdrant - Vector Database ·