利用先进语言模型提升小型语言模型的可解释知识蒸馏方法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种方法,通过训练较小的学生模型来提取大型语言模型(LLMs)的知识,以在资源受限设备上部署这些模型。学生模型在准确率上优于原始神经网络模型,参数大小减小了100倍和10倍。该研究对于自动评分在教育环境中的应用具有潜力。
🎯
关键要点
- 本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为更小、更高效且准确的神经网络。
- 该方法通过使用LLM的预测概率训练较小的学生模型,作为教师模型。
- 专门设计的损失函数确保学生模型能够准确模仿教师模型的性能。
- 在对6,684个学生撰写的科学问题回答及其他数据集的测试中,提炼的学生模型在准确率上优于原始神经网络模型。
- 对于7T数据集,NN模型和提炼的学生模型的准确率与教师模型相当,但NN模型在其他数据集的准确率显著较低,平均低28%。
- 提炼模型比NN模型获得更高12%的准确率。
- 学生模型的参数大小为0.1M至0.02M,相较于原始输出模型大小减小了100倍和10倍。
- 该研究为自动评分在教育环境中的应用提供了潜力。
➡️