对大型语言模型的知识蒸馏中库尔巴克 - 莱布勒散度的重新思考

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文证明了在大语言模型知识蒸馏中,逆向Kullback-Leiber(RKL)分散度是均值寻找而不是寻找模式。作者提出了一种自适应Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合前向Kullback-Leiber(FKL)和RKL。评估结果显示,该方法在多个任务上优于基准,并提高了生成回答的多样性和质量。

🎯

关键要点

  • 逆向Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中是均值寻找而非模式寻找。
  • RKL与前向Kullback-Leiber(FKL)的优化目标相同,经过足够多的迭代后两者收敛。
  • 提出了一种自适应Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重结合FKL和RKL。
  • 评估结果显示AKL方法在多个任务上优于基准,提升了生成回答的多样性和质量。
➡️

继续阅读