小红花·文摘

在大型语言模型时代，由于大型语言模型的参数数量非常庞大，即使在小数据集上微调模型也会非常耗时。与微调大型语言模型类似，修剪大型语言模型也会非常耗时，因为需要评估大型语言模型中所有参数的重要性。本文介绍了如何使用低秩适应（LoRA）加速大型语言模型的微调，以及如何使用LoRAPrune修剪大型语言模型。LoRA假设在微调过程中的参数更新矩阵是低秩的，并将完整秩的参数更新矩阵分解为两个低秩矩阵。LoRA在微调过程中冻结完整秩的参数矩阵，只更新具有更少参数的两个低秩矩阵，从而显著降低了微调大型语言模型的计算成本。LoRAPrune是为了加速参数重要性评估过程而提出的，其中采用了LoRA进行神经网络修剪和微调。