KD-LoRA：一种结合LoRA与知识蒸馏的高效微调混合方法

本文研究了大型语言模型在微调中的高计算和内存需求问题，并提出了一种新颖的混合微调方法KD-LoRA，结合了低秩适应（LoRA）和知识蒸馏（KD）。研究表明，KD-LoRA在GLUE基准上保持了98%的性能，同时比LoRA更紧凑，显著减少了30%的GPU内存使用和推理时间。

研究比较了低秩适应（LoRA）与全精调在编程和数学领域的表现。结果表明，LoRA在大多数情况下不如全精调，但其正则化效果更强，能够更好地保持基础模型的任务表现，并生成多样化的结果。全精调学习到的扰动比LoRA高10-100倍，解释了性能差距。最后，提出了LoRA精调的最佳实践建议。

lora 低秩适应全精调数学最佳实践编程