ShortGPT: 大型语言模型中的层次关系比您预期的更冗余
原文中文,约300字,阅读约需1分钟。发表于: 。大型语言模型的层之间存在高相似性,某些层对网络功能没有显著作用,因此提出了一种基于层重要性评分的剪枝方法,并且该方法在模型剪枝方面明显优于先前的最新方法,同时与量化等方法相互独立,能进一步减小参数和计算量。
提出了一种名为Layer Collapse (LaCo)的逐层修剪方法,能够快速减小模型大小并保留模型结构。实验证明,在修剪比例为25-30%时,该方法能够保持超过80%的平均任务性能,优于现有的结构修剪方法。同时,后训练实验证实了该修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机。还评估了大型语言模型在不同修剪比例下的性能。