谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。
本研究提出了ParetoQ框架,以解决量化模型大小与准确性之间的比特宽度争议。研究发现2比特与3比特之间存在显著的学习转变,优化后的ParetoQ在准确性上优于以往方法,表明2比特量化在内存减少和加速方面具有潜力。
本研究提出了Edge-LLM框架,通过逐层剪枝和量化策略提高大型语言模型的调整效率,实现计算加速2.92倍,内存减少4倍,同时保持任务准确性。
本文介绍了SqueezeAttention算法,通过确定关注层的重要性来优化关键值缓存的预算,并结合标记稀疏化算法来压缩关键值缓存。该算法在语言模型和基准测试中实现了内存减少和吞吐量提升。
完成下面两步后,将自动完成登录并继续当前操作。