基于流形对齐的层合并压缩 LLM

使用流形学习和归一化成对信息瓶颈测量方法的基于流形知识对齐和层合并的压缩（MKA）方法，成功降低模型大小并保持性能，在多个基准数据集和各种大语言模型中取得显著的压缩比，并且在与量化结合时，能够实现更大的压缩，提供了一种资源高效且性能保持的大语言模型压缩技术。

介绍了一种名为Layer Collapse (LaCo)的逐层修剪方法，可快速减小模型大小并保留结构。实验证明，在修剪比例为25-30%时，该方法保持了超过80%的平均任务性能，优于其他结构修剪方法。通过后训练实验证实该修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在不同修剪比例下的性能。

LaCo Layer Collapse llm 修剪比例模型大小逐层修剪方法