小红花·文摘

本研究探讨了BabyLLaMa模型的学习效率，提出用反向KL散度替代传统目标函数以引导模式寻求行为。实验结果表明，单教师模型在大多数任务中优于多教师模型，结合优化技术进一步提升了性能，验证了方法的有效性和鲁棒性。