LoRA-GGPO:通过梯度引导扰动优化缓解LoRA微调中的双重下降

📝

内容提要

本研究针对大语言模型在微调过程中出现的“双重下降”现象,提出了LoRA-GGPO方法,通过梯度和权重范数生成有针对性的扰动,以优化损失景观的平滑度。这一新方法显著提高了模型的泛化能力,相较于传统的LoRA及其先进变体,LoRA-GGPO在自然语言理解和生成任务中表现更佳,提供了一种高效的微调方案,广泛适用于实际应用。

🏷️

标签

➡️

继续阅读