小红花·文摘

本研究提出KV-Distill框架，旨在压缩标准Transformer中自注意力机制的KV缓存，显著减少上下文长度达99%，同时保持预训练模型的性能。实验结果表明，KV-Distill在提取任务中优于其他压缩技术。

BriefGPT - AI 论文速递 ·

本研究提出了一种新技术DeltaLLM，通过在Transformer层之间共享权重和添加低秩差异矩阵，减少约12%的参数，同时保持90%的性能，有效解决大型语言模型的内存占用问题。

BriefGPT - AI 论文速递 ·

本研究提出了一种后训练量化框架，实现了3D医疗图像分割模型的8位量化，显著减少了模型大小和推理延迟，同时保持了性能，为资源受限的医疗成像应用提供了高效解决方案。

BriefGPT - AI 论文速递 ·

Apple Machine Learning Research ·

本研究提出了一种激活方差稀疏性评分（AVSS）方法，用于评估深度学习模型各层的重要性。去除约25%的低重要性层后，模型仍能保持90%以上的性能，为大型语言模型的优化提供了新思路。

BriefGPT - AI 论文速递 ·

本文提出了一种增量量化方法，通过细调的大语言模型进行分解和压缩，以保持模型性能。研究表明，混合精度量化技术（如W4A8量化）显著提高计算效率，减少内存占用，且性能损失低于1%。此外，提出的可学习压缩量化方法（LCQ）有效控制权重和激活的压缩级别，优于传统方法，保持高准确度。

BriefGPT - AI 论文速递 ·

本文探讨了数据集蒸馏，尤其是基于固定模型的蒸馏方法。研究表明，使用少量数据点可以有效近似原始数据，压缩训练数据集至0.1%仍能保持90%的性能。此外，知识蒸馏技术能够将深度学习模型转化为更小的模型，提高可解释性和精度。研究还揭示了知识蒸馏的理论有效性及其关键因素，并展望了未来的研究方向。

BriefGPT - AI 论文速递 ·