将大型语言模型修剪为模块内低秩结构并过渡激活
原文中文,约200字,阅读约需1分钟。发表于: 。TransAct 是一种结构化剪枝方法,通过降低多头注意力和多层感知器模块内部的转换激活,同时保留对扰动敏感的跨模块激活,将大型语言模型 (LLM) 剪枝成内部低秩架构,显著减少权重、KV 缓存和注意力计算,从而实现高度压缩的优化解决方案。
这项研究展示了Sheared-LLaMA系列通过结构修剪技术将LLaMA2-7B模型修剪为1.3B和2.7B参数,仅使用了相当于从头训练这些模型所需计算量的3%。这种方法比等规模的开源模型更优,并证明了使用结构修剪构建更小型语言模型的成本效益。