本研究提出KV-Distill框架,旨在压缩标准Transformer中自注意力机制的KV缓存,显著减少上下文长度达99%,同时保持预训练模型的性能。实验结果表明,KV-Distill在提取任务中优于其他压缩技术。
本研究提出了一种新技术DeltaLLM,通过在Transformer层之间共享权重和添加低秩差异矩阵,减少约12%的参数,同时保持90%的性能,有效解决大型语言模型的内存占用问题。
本研究提出了一种后训练量化框架,实现了3D医疗图像分割模型的8位量化,显著减少了模型大小和推理延迟,同时保持了性能,为资源受限的医疗成像应用提供了高效解决方案。
本文介绍了一种量化方法,旨在提升大语言模型(LLM)在服务器上的推理效率。该方法将通信特征值从16位降低至4.2位,同时几乎保持原有性能,Gemma 2 27B和Llama 2 13B的性能分别为98.0%和99.5%。
本研究提出了一种激活方差稀疏性评分(AVSS)方法,用于评估深度学习模型各层的重要性。去除约25%的低重要性层后,模型仍能保持90%以上的性能,为大型语言模型的优化提供了新思路。
本文提出了一种增量量化方法,通过细调的大语言模型进行分解和压缩,以保持模型性能。研究表明,混合精度量化技术(如W4A8量化)显著提高计算效率,减少内存占用,且性能损失低于1%。此外,提出的可学习压缩量化方法(LCQ)有效控制权重和激活的压缩级别,优于传统方法,保持高准确度。
本文探讨了数据集蒸馏,尤其是基于固定模型的蒸馏方法。研究表明,使用少量数据点可以有效近似原始数据,压缩训练数据集至0.1%仍能保持90%的性能。此外,知识蒸馏技术能够将深度学习模型转化为更小的模型,提高可解释性和精度。研究还揭示了知识蒸馏的理论有效性及其关键因素,并展望了未来的研究方向。
完成下面两步后,将自动完成登录并继续当前操作。