小红花·文摘

该研究提出了一种新的大规模语言模型结构压缩方法ZipLM，能够在保证加速比的同时提供最先进的压缩精度结果。通过结构剪枝和知识蒸馏技术，ZipLM在GPT2模型上表现最佳。