对大型语言模型的知识蒸馏中库尔巴克 - 莱布勒散度的重新思考
原文中文,约300字,阅读约需1分钟。发表于: 。通过实证和理论证明,逆向 Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找,与前向 Kullback-Leiber(FKL)优化目标相同,经过足够多的迭代后二者收敛。基于实践约束,提出了一种简单而有效的自适应 Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合 FKL 和...
本文证明了在大语言模型知识蒸馏中,逆向Kullback-Leiber(RKL)分散度是均值寻找而不是寻找模式。作者提出了一种自适应Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合前向Kullback-Leiber(FKL)和RKL。评估结果显示,该方法在多个任务上优于基准,并提高了生成回答的多样性和质量。