该研究提出了一种新技术,通过修剪状态空间组件来压缩大型语言模型,结合变换器和状态空间模型(SSM)架构,实现了高达40%的压缩,同时保持性能。引入了适用于多种模型尺寸和任务的群体感知修剪方法,专门针对Mamba模型。
完成下面两步后,将自动完成登录并继续当前操作。