LoRAP:大型语言模型的 Transformer 子层应采用差异化结构压缩
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种混合压缩模型LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了Transformer模型中Multi-Head Self-Attention子层的低秩特性,并提出了无梯度的结构化通道剪枝方法用于Feed-Forward Network子层,实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。
🎯
关键要点
-
本研究提出了一种混合压缩模型LoRAP。
-
LoRAP通过输入激活加权奇异值分解方法增强了Transformer模型中Multi-Head Self-Attention子层的低秩特性。
-
提出了基于低秩度差异的参数分配方案。
-
提出了无梯度的结构化通道剪枝方法用于Feed-Forward Network子层。
-
实验证明LoRAP在多重压缩比下优于之前的结构化压缩方法。
➡️