利用前沿开源大型语言模型的知识蒸馏：可泛化性及合成数据的作用

本研究解决了大型语言模型在推理成本和延迟上的高负担问题，通过知识蒸馏技术，将_llama-3.1-405B_教师模型的输出用于训练更小的学生模型，提高了效率。研究发现，使用合成数据显著提升了8B和70B模型的准确性，并且在某些数据集上能够匹敌或超过405B模型的零-shot准确性，同时强调了合成数据质量和多种评估方法在知识蒸馏中的重要性。

本研究利用知识蒸馏技术，降低了大型语言模型的推理成本和延迟。通过使用合成数据，显著提升了8B和70B模型的准确性，部分数据集的表现可与405B模型的零-shot准确性相媲美，突显了合成数据质量的重要性。

准确性合成数据大型语言模型开源推理成本知识蒸馏